数字音频采样率与码率（转）

转自：http://blog.csdn.net/wghhdzwzqbx02/article/details/7392059

http://blog.csdn.net/ALENTAM/article/details/2173543

一、基本知识

　　人的说话频率基本上为300Hz~3400Hz，但是人耳朵听觉频率基本上为20Hz~20000Hz。

　　实际中，人发出的声音信号为模拟信号，想要在实际中处理必须为数字信号，即采用抽样、量化、编码的处理方案。处理的第一步为抽样，即模数转换。简单地说就是通过波形采样的方法记录1秒钟长度的声音，需要多少个数据。根据奈魁斯特（NYQUIST）采样定理，用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形。所以，对于声音信号而言，要想对离散信号进行还原，必须将采样频率定为40KHz以上。实际中，一般定为44.1KHz。44.1KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）原则上采样率越高，声音的质量越好，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则已达到DVD音质了。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。

三、关于采样的位数

　　采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。我们首先要知道：电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之，在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方–256，16位则代表2的16次方–64K。比较一下，一段相同的音乐信息，16位声卡能把它分为64K个精度单位进行处理，而8位声卡只能处理256个精度单位，造成了较大的信号损失，最终的采样效果自然是无法相提并论的。如今市面上所有的主流产品都是16位的采集卡，而并非有些无知商家所鼓吹的64位乃至128位，他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位，但是它只是建立在Direct Sound加速基础上的一种多音频流技术，其本质还是一块16位的声卡。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。

四、关于码率

　　对于音频信号而言，实际上必须进行编码。在这里，编码指信源编码，即数据压缩。如果，未经过数据压缩，直接量化进行传输则被称为PCM（脉冲编码调制）。要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样位数大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。最原始的有DPCM、ADPCM，其中最出名的为MP3。所以，采用了数据压缩以后的码率远小于原始码率。

心理声学音频压缩
　　心理声学一词似乎很令人费解，其实很简单，它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如，如果我扯着嗓子喊一声，同时轻轻地踏一下脚，您就会听到我的喊声，但可能听不到我踏脚的声音。通过去掉踏脚声，就会减少信息量，减小文件的大小，但听起来却没有区别。

五、总结

　　对于人类的语音信号而言，实际处理一般经过以下步骤：

　　人嘴说话——>声电转换——>抽样（模数转换）——>量化（将数字信号用适当的数值表示）——>编码（数据压缩）——>传输（网络或者其他方式）——>解码（数据还原）——>反抽样（数模转换）——>电声转换——>人耳听声。

———————

　　VBR(Variable Bitrate)动态比特率。也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率。这是Xing发展的算法，他们将一首歌的复杂部分用高Bitrate编码，简单部分用低Bitrate编码。主意虽然不错，可惜Xing编码器的VBR算法很差，音质与CBR相去甚远。幸运的是， Lame完美地优化了VBR算法，使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式，推荐编码模式。

　　ABR(Average Bitrate)平均比特率，是VBR的一种插值参数。Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR也被称为“Safe VBR”，它是在指定的平均Bitrate内，以每50帧(30帧约1秒)为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量。举例来说，当指定用192kbps ABR对一段wav文件进行编码时，Lame会将该文件的85%用192kbps固定编码，然后对剩余15%进行动态优化：复杂部分用高于192kbps 来编码、简单部分用低于192kbps来编码。与192kbps CBR相比，192kbps ABR在文件大小上相差不多，音质却提高不少。ABR编码在速度上是VBR编码的2到3倍，在128-256kbps范围内质量要好于CBR。可以做为VBR和CBR的一种折衷选择。

　　CBR(Constant Bitrate)，常数比特率，指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，但音质却不会有明显的提高。
　　对MP3来说Bitrate是最重要的因素，它用来表示每秒钟的音频数据占用了多少个bit(bit per second,简称bps)。这个值越高，音质就越好。

　　MP3：MP3的全称应为MPEG1 Layer-3音频文件，MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG音频文件是MPEG1标准中的声音部分，也叫MPEG音频层，它根据压缩质量和编码复杂程度划分为三层，即Layer-1、Layer2、Layer3，且分别对应MP1、MP2、MP3这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG音频编码的层次越高，编码器越复杂，压缩率也越高，MP1和MP2的压缩率分别为4：1和6：1-8：1，而MP3的压缩率则高达 10：1-12：1，也就是说，一分钟CD音质的音乐，未经压缩需要10MB的存储空间，而经过MP3压缩编码后只有1MB左右。不过MP3对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。（另MP3PRO： mp3PRO编码器将音频的录音分成两个部分：mp3部分和PRO部分。mp3部分分析低频段（Low Frequency Band）信息，并将其编码成通常的mp3文件数据流。这就使得编码器能够集中编码更少的有用信息，获得更佳品质的编码效果。同时，这也保证了 mp3PRO文件同老的mp3播放器的兼容性。PRO部分分析的则是高频段（High Frequency Band）信息，并将其编码成mp3数据流的一部分，而这些通常在老的mp3解码器里是被忽略的。新的mp3PRO解码器会有效地利用这部分数据流，将两段（高频段和低频段）合并起来产生完全的音频带，达到增强音质的效果。）