(原创)音频模拟数字转换解析，也谈对奈奎斯特采样定理的疑问

光芒四射 · 发表于 2010-10-8 11:46

马上注册家电论坛，众多有奖活动等你来参与！

您需要登录才可以下载或查看，没有账号？注册

x

还是和前面一样的原创

光芒四射 · 发表于 2010-10-8 11:54

作者小严QQ：835801527
作者博客（全是原创技术文章）地址：http://blog.sina.com.cn/omarte
数字音响已经发展很多年了，可是用google在网上搜索并没有能比较详细解释模拟音乐信号转换成数字数据的知识普及文章，利用2010年国庆假期我尽自己的力量来说说好了。
音乐信号模拟/数字转换主要掌握两个概念，一个是采样比特率，另一个是采样频率。图一是输入6.3kHz模拟音频信号，用48kHz采样频率，1Bit进行模拟/数字转换的示意图。请看图一  1Bit示意图。随便说说为了让大家更好的研究交流本文所附的所有图片都够大够清晰，如果觉得看不清应该是网站压缩了，请点击图片以获得更大清晰图片。
图一
因为1Bit转换精度很低，这样的数字记录无疑是很粗糙的。我们将采样精度提高到2Bit来看看会是什么情况。请看图二  2Bit示意图。
图二
继续看看3Bit的情况。请看图三  3Bit示意图。
图三
继续看看4Bit的情况。请看图四  4Bit示意图。
图四
每增加1Bit取样状态增加一倍，数据量也增加一倍，动态范围也增加6dB。爱好音响的同学常常争执24Bit好还是把16Bit做好才是正道的话题，请看图五比特数数据量动态范围关系图。
图五
现在音响界常常争论的一个问题，CD格式的16 Bit动态范围 96dB是否足够使用？一方认为不够，另一份认为足够了多了是浪费。网络上公说公有理，婆说婆有理地争论了很长时间。持CD足够使用论观点的人主要基于两种思考，一是中间级设备本底噪音高，二是听音环境噪音高。这二者都会导致在实际使用中显不出高比特率大动态范围的好处来，96dB动态范围足够用。争论还在继续让我们也加入进来。
现在我们对比特率、动态范围有基础了解后可以自己来做这方面的理论分析，就当做是学习知识后巩固的习题好了，用本文前面提到的知识做一比较示意图。参见图六  16Bit 20Bit 24Bit比较示意图。
图六
动态范围24Bit的144dB能比CD格式16Bit的96dB大不少。图中使用小方块来表示数据量比值。由图可见在相同采样频率情况下20Bit的数据量是16Bit的16倍，而24Bit的数据量是16Bit的256倍。
对听音环境噪音高显不出高比特率大动态范围的好处来的论点，我们也来做一个分析。先设问：我们最大的听音声压是多少分贝（dB）？我们的听音环境噪声是多少分贝（dB）？将这两个值一相减就得到了我们能听到的动态范围了。
有同学能挣会花用的是mbl 7006合并式放大器，120W/8欧姆，185W/4欧姆。配上丹拿焦点140书架箱，灵敏度86dB/m/W，阻抗4欧姆。在距离音箱一米的地方连续声压是86+10 log185 ≈ 109dB。如果在距离音箱2米外听音声压衰减是20 log2 ≈ 6dB，能听到的最大声压是109 – 6 = 103 dB，因为是左右声道共俩只箱在听音位置上的最大声压是103 + 3 = 106 dB。家住小区听音时间环境噪音在40 dB左右，他（她）能听到的动态范围是106 – 40 = 66 dB。CD格式16Bit动态范围有96dB足够了。
再看另一位同学比较喜欢大声，前世修桥补路现在用上灵敏度101dB/m/W的美国westlake SM-1VF音箱搭配1000瓦的功放。在距离音箱一米的地方连续声压是101+10 log1000=131dB。如果在距离音箱4米外听音声压衰减是20 log4 ≈ 12dB，能听到的最大声压是131 – 12 = 119 dB，因为是左右声道共俩只箱在听音位置上的最大声压是119 + 3 = 122 dB。这同学比较执着，也为后世着想行善积德布施盖庙后，听音室设计装修化了大力气，达到了演播室的噪声水平不超过34dB（A），混响时间也做到小于0.5秒。他（她）能听到的动态范围是122 – 34 = 88 dB。CD格式16Bit动态范围有96dB从数据来看还有富余。可是实际上够不够用呢？我的答案在文章最后请慢慢看来。
另一种观点是音响系统的前级会产生瓶颈，请看拙作《音响配置之：被浪费了的信噪比》。
链接地址
http://www.jd-bbs.com/thread-2408445-1-1.html
http://www.audiobar.net/viewthread.php?tid=318188
http://www.ca001.com/bbs/thread-248692-1-1.html
比特率告一段落现在说说采样频率。采样时间是采样频率的倒数，比如采样频率是48kHz，那么每一次采样的间隔时间就是1/48000 = 0.000002083333333（3的循环）秒 ≈ 2.083微秒（uS），这样每隔2.083微秒（uS）就对音频模拟输入信号做一次判定，判定当前信号是65536种（16Bit）状态中的哪一种，然后把数据传输出去ADC就完成了自己的工作。
如果是20Bit /48kHz采样，那就是每隔2.083微秒（uS）就对音频模拟输入信号做一次判定，判定当前信号是1048576种状态中的哪一种。
同理如果是10Bit /48kHz采样，那就是每隔2.083微秒（uS）就对音频模拟输入信号做一次判定，判定当前信号是1024种状态中的哪一种。
其它比特数请看本文前部分以求融会贯通，并可参考图五。
音频采样的采样频率很多主要使用的有8kHz、11.025kHz、16kHz、22.05kHz、37.8kHz、44.1kHz、48kHz、96kHz、192kHz等。
知道了这些基础知识我们很容易做出示意图来帮助我们分析问题，请看图七 6.3 kHz正弦波48 kHz取样的情况。
图七
由图我们可以看到数字化的信号（黑色）和输入信号（橙色）的区别还是很大，这种区别就是失真，6.3 kHz产生如此明显的失真，在高频段会不会失真更大？请看图八 16 kHz正弦波48 kHz取样的情况。
图八
由图可见在输入信号频率升高到16 kHz后模数转换失真比6.3 kHz时更大。取样频率48 kHz是信号频率16 kHz的3倍也会出现明显的失真。那么以前流传的“根据奈奎斯特采样定理,允许重建的有用信号的频率要低于采样频率fs的一半,即如果采样频率为50Hz,则频率低于25Hz的信号可以被可靠地重建和分析。”是否正确？是我们对奈奎斯特采样定理理解错误，还是奈奎斯特出错，还是翻译上出了问题？欢迎讨论。
继续探索问题在知识的海洋里……洗澡，要穿游泳衣还要带救生圈，不要人云亦云，要不他错了我也跟着错就糟糕了。我们再做图九 24 kHz正弦波48 kHz取样的情况。
图九
图中我们发现数字转换后的能量大小和相位关系很大，不同相位时结果并不恒定，在有的相位甚至完全没有能量如图九最上面情况。这个结果是我再次对奈奎斯特采样定理产生怀疑。外国人的事先不管他继续说说采样频率。
那么提高采样频率是不是会改善高频的表现呢？请看图十10 kHz正弦波48kHz和96 kHz取样的情况。
图十
有了比较我们很清楚看出96 kHz取样比48kHz明显胜出，波形失真更小。继续比较图十一16 kHz正弦波96kHz取样的情况。
图十一
看来提高采样频率对改善高频失真的效果真是立竿见影，图十一的情况比图八的情况好多了，就因为提高了一倍的采样频率。
对音响我们已经有太多误解有太多错误的过去了，比如对电子管，比如对LP……所以对新设备我的建议是把它搬进听音室接上系统——听，好不好靠耳朵收货，数据也好理论也好都是参考，耳朵才是大老板，切勿本末倒置。
另，我在文章中埋下了一个比较专业的计算错误，希望认真看文章的人能提出来。一个小游戏，呵呵！

光芒四射 · 发表于 2010-10-8 11:57

图片明天附上，由于超过了论坛容量的限制必须明天才能发了

yaoyaotaba · 发表于 2010-10-9 11:26

太烦琐，希望你能给出一个你认为的最实用有效的连接方法！

ljw100 · 发表于 2010-10-9 11:52

LZ有质疑精神，这很好。

采样定理是数字技术的理论基础，采样定理若不成立，那数字技术这个“大楼”就会坍塌。如果要质疑或否定采样定理，应首先弄明白采样定理所涉及的范围、成立的先决条件等。

采样定理不涉及采样后如何量化样本信号的问题。

如果LZ对采样定理感兴趣，可去弄本这方面的教科书看看，不用从网上去搜所谓的“文章”，限于种种原因，网上搜来的所谓“文章”，可能在系统性、严谨性方面远不够。

henry余 · 发表于 2010-10-9 14:28

交易区新帖推荐

非常同意你的见解，我在8月份也发帖讨论过，有兴趣不妨看看
http://www.jd-bbs.com/viewthread ... ge=122#pid129047778

奈奎斯特的时代，对与失真的概念还是比较模糊，应该不能作为标准。

再说，世界上也没有不失真的方法。。。。数码采样当然不能例外。

所以这个定律是不完整的，只是概念、当时对失真要求、认知的概念。（当时对失真的要求可能是10% 以内都叫作没有失真，可能、可能，呵呵）

[ 本帖最后由 henry余于 2010-10-9 14:36 编辑 ]

显示全部楼层 · 发表于 2010-10-9 14:53

[s:105] [s:105] [s:105] [s:105]

显示全部楼层 · 发表于 2010-10-9 14:54

[s:139] [s:139]

显示全部楼层 · 发表于 2010-10-9 14:54

[s:198] [s:198] [s:198]

光芒四射 · 发表于 2010-10-9 15:02

人同此心心同此想，44.1KHz取样频率是太低了。

光芒四射 · 发表于 2010-10-9 15:13

原帖由 henry余 于 2010-10-9 14:28 发表
非常同意你的见解，我在8月份也发帖讨论过，有兴趣不妨看看
http://www.jd-bbs.com/viewthread ... ge=122#pid129047778

奈奎斯特的时代，对与失真的概念还是比较模糊，应该不能作为标准。

再说，世界上也没有 ...

在看你的帖子，我认为采用率比信号高3倍也不可能使信号可以被可靠地重建和分析。这和初始相位有关，甚至采用频率高N倍也不可以，就是说同样的模拟信号，采样1000次只要初始相位发生变化，最后得到的数字信号幅度是不相同的。

灰色的天空 · 发表于 2010-10-9 20:18

蚍蜉撼大树[s:14] [s:14] [s:14]

henry余 · 发表于 2010-10-9 23:43

原帖由 光芒四射 于 2010-10-9 15:13 发表

在看你的帖子，我认为采用率比信号高3倍也不可能使信号可以被可靠地重建和分析。这和初始相位有关，甚至采用频率高N倍也不可以，就是说同样的模拟信号，采样1000次只要初始相位发生变化，最后得到的数字信号幅度 ...

光芒兄说的不错。

我写这几个帖的原意是想说明：

1。取样越高，失真越少

2。44.1K的取样，在声称的20-2万周，对于高频是不足够“好”的。（但是，什么叫好？）

3。原帖的图表明，1万周以上，声音已经自动加上调制（多了些频率差拍），这些调制波是不协调的频率，范围在2K开始到2万都有。这些调制波干扰了音乐声（甚至爆破声这类的杂声、脉冲声），这就是数码声的最大来源！！！

你看一万周（中间的波形），CD机还原时会出现渐大的波幅，再下去就会变小，周而复始---这个周而复始的大小幅度变化，就是一个调制波频率。这就是你说的相位同步的问题。

现在想来，按傅立叶理论，D/A过程，不只出现这些差拍，还会因为出现直线而出现更多的高频杂波----波形失真出现多出来的频率---
直线段，根据傅立叶理论，是极高频正弦波的一部分----但却不是他的理论说的整倍数的基波的谐波，赫赫，......这就是在自然界没有的声音，也就等于难听的声音。这样，更能解释数码声的来源---- 解码后出现“非自然界的声音”，而且集中在高频到极高频！！！

在我写好这几个帖后，我居然发觉我的耳朵可以听见2万3千周的方波、锯齿波（但是听不见1万5的正弦波！！！！）
方波的上升部分等于脉冲波，锯齿波的上升部分也是，就是人的耳朵可以听经超过2万周的脉冲（无论是上升还是下降的脉冲----希望你能明白我说什么，要解释很烦）

那么上面说的这些直线段，在突发的声音如钢琴、响板等的敲击乐器就会像方波的性质而变得可闻，而变得难听！！！

上面说的是理论上负面的影响，实际上，在我后面的帖也说过，系统的各个环节，还是会根据傅立叶的理论来放大、来能量转换（如喇叭），因为这些元件都是按自然规律来追随信号、延迟信号，把这些直线段化掉。

只是，其他环节也不是完美，最大影响的是相位失真－－－－差的类比放大线路如果相位失真严重的话，这些问题就马上严重起来，令问题非常难搞。

如果这个放大线路就是CD机里面DA后的发放大部分，那就完蛋的蛋，.......所以，信源很重要！！！

另一个严重相位失真的部分，就是分频箱体的分音器，哈哈哈，分频器的设计，如果要减少相位失真，功力要很高才行。。。。。

（新一代的功放，相位失真大部分都在可以接受的程度）

附：
非自然声音为什么一定是“难听”，其实声音没有难听好听之分，只有“觉得难听" ,”觉得好听“。
这个”觉得“，是地球动物与生俱来的防卫系统：听觉关连所引发的---所有非正弦波的谐波，都与危险关连上。一听神经就紧张起来，因为绝大部分机会是有生命威胁出现的先兆。这就使为什么指甲刮黑板的声音令人毛骨悚然，而争相走避。（动物的本能）

这是科学不能解决的遗传反应。

没有理由不欢 · 发表于 2010-10-10 11:13

顶探索的好文。
其实不是奈奎斯特采样定理的问题，而是44.1khz采样频率限制的问题。
人耳是不能单独听到20khz以上的声音，但20khz以上的频率是不是就真的不需要了？
但如果播放20khz以上的声音，根据奈奎斯特采样定理，又必然要失真的。目前的办法很无奈，就是削足适履！！

没有理由不欢 · 发表于 2010-10-10 11:25

人的听觉错觉和视觉错觉是不一样的：把一块红颜色和一块绿颜色放在非常靠近的位置上，我们的视觉错觉会让我们感到是看见了二者的中间色——黄色；但如果同时听到一个低音和一个高音，我们听起来就绝不会是一个中音。如果让你分别听一个20000赫兹的声音和一个21000赫兹的声音，你可能什么也听不见。但如果让你同时听这两个信号，你会感觉听到了两者的差频信号——1000赫兹的声音。造成这种现象的原因是人耳的非线性。
不仅人耳是非线性的，当声压超过90分贝的时候，空气也是非线性的。有不少人都作过以下的实验：在一个行波筒的一端放一个机械式活塞，让活塞作正弦振动，使筒中的空气产生行进声波。逐渐加强振动幅度，当振动强度达到一定程度后发现：活塞附近的空气波形还是正弦的，到远处就变成非正弦波了。这个实验可以证明空气的非线性，而且在声音传播的过程中，非线性会随着传播距离的增加而越来越大。很多乐器的声音也是这样，小号的号口处声压可以达到150分贝，在台下远距离处听到的声音与号口处是不会一样的，原因就在于空气的非线性。
懂得了这一点，有些当前争论不休的某些问题就可以不必再争了，因为这种争论是没有意义的。

二手影音产品交易

丹拿-意力-杰士 -NAD-安桥-索尼投影机

听过都说好，仅2499的无线音响

飞傲台式播放解码一体机6999元

北京墨龙声学

丹拿声学监听音箱

推广合作

影音产品交易区

(原创)音频模拟数字转换解析，也谈对奈奎斯特采样定理的疑问

马上注册家电论坛，众多有奖活动等你来参与！

评分