数据库系统工程师考试考点:音频
用计算机处理声音归结为语音合成、存储和输出等技术。语音合成技术可分为发音参数合成、声道模型参数合成和波形编辑合成,语音合成策略可分为频谱逼近和波形逼近。
发音参数合成对人的发音过程进行直接模拟,定义了唇、舌、声带的相关参数,由这些发音参数估计声道截面积函数,进而计算声波。但由于人发音的生理过程的复杂性,理论计算与物理模拟之间的差异,合成语音的质量暂时还不理想。声道模型参数语音合成方法基于声道截面积函数或声道谐振特性合成语音,这类合成器的比特率低,音质适中。波形编辑语音合成技术基于时域波形修改的语音合成技术,直接把语音波表数据库中的波形级联起来,输出连续语流。这种语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的影响,合成的语音清晰自然,其质量普遍高于参数合成。
推动喇叭发声的电信号是连续的模拟信号。计算机只能存储数字信号,模拟信号转换成数字信号包括采样和量化两个过程。采样是在一系列离散的时间点上测量模拟信号的大小,而量化则是用数字量来表示该大小。
实现计算机语音输出有两种方法:一是录音/重放,二是文-语转换。若采用第一种方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,重建声音信号(重放)。录音/重放可获得高音质声音,并能保持特定人或乐器的音色。但所需的存储容量随发音时间线性增长。
第二种方法是基于声音合成技术的一种声音产生技术,它可用于语音合成和音乐合成。文-语转换是语音合成技术的延伸,它能把计算机内的文本转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合成出语音基元,再按语音学规则或语言学规则,连接成自然的语声流。文-语转换的参数库不随发音时间增长而加大,而规则库却随语音质量的要求而增大。
常见的音频格式:
WAVE:WAVE格式的声音文件的扩展名为WAV,这种格式记录了声音的波形,即模拟信号的采样数值。WAV文件所记录的声音文件能够和原声基本一致。在播放WAV文件时,只需进行数字模拟转换,将数字量转换成相应的电信号值并构成模拟信号即可推动喇叭发音。从理论上说,采样率达44kHz(每秒采样44000次)、采样字节长度达16位的音质已能和常规CD唱片相当。因为WAVE格式要把声音的每个细节都记录下来,而且不压缩,所以它的文件很大。例如,如果采样率为44kHz,那么每一秒钟就有44Kb×16×2(立体声)=1 441 792位产生,那么,一张650MB的空白光盘最多也只能容纳50~60分钟的节目。
MOD:MOD格式的声音文件的扩展名可为MOD、ST3、XT、S3M和FAR中的任意一种。MOD及播放器大约起源于20世纪80年代初,原先是作为软声卡问世的,MOD只是这类音乐文件的总称。MOD格式的文件里不仅存放了乐谱(最初只能支持4个声道,到现在已有16甚至32个声道的文件及播放器了),而且存放了乐曲使用的各种音色样本。由于制作人创作歌曲使用的音色样本同听众回放文件时使用的音乐样本完全相同,所以这样的文件有显著优点:回放效果明确,音色种类永无止境。
MPEG-3:MPEG-3格式的声音文件的扩展名为MP3.MPEG-3记录了音乐经数字比压缩的编码,压缩较大,在网络、可视电话通信方面大有用武之地。但MPEG-3的失真较大。在播放MP3文件时,需要相应的解码器将它转换成模拟信号的数字序列,再经数字模拟转换推动喇叭发音。
Real Audio:Real Audio格式的声音文件的扩展名为RA,Real Audio也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。Real Audio压缩比很大,相对而言,Real Audio的音质比MPEG-3好。
CD Audio:CD Audio格式的声音文件的扩展名为CDA,回放和采样字节都是16位,现在有些厂家在录制CD时采用20位录音,这样就产生了一些耳朵听不到但大脑感觉得到的波形,可谓CD中的精品。CDA的缺点是:无法编辑,文件太大。
MIDI:MIDI格式的声音文件的扩展名是MID.MIDI(Musical Instrument Digital Interface,乐器数字接口)泛指数字音乐的国际标准,它始创于1982年。MIDI描述了音乐演奏过程的指令,利用MIDI文件演奏音乐,所需的存储量最少。MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。作为音乐工业的数据通信标准,MIDI是一种非常专业的语言,它能指挥各音乐设备的运转,而且具有统一的标准格式,能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果。MIDI依赖于回放设备,为了避免这种缺点,网络上出现了"软波表"之类的软音源。采用专业音源的波表,利用CPU对网络上传来的短短的MIDI数据进行回收,其效果能够被制作者预测。