我们谈论音调、响度、音色的时候,我们到底在谈论什么?(上)
声信号的主观参数(音调、响度、音色),与客观参数(频率、相位、振幅)到底有什么关系。 0、背景知识 声信号有两种表示方法,一种叫做时域表示,一种叫做频域表示。 时域表示就是我们正常理解的表示方法,即声音的强度(一般是声压)随着时间的变化函数。如果表现到图像上,就是横坐标为时间,纵坐标为声音强度的图像。 很多常见的表示声音的图片,就是采用这种表示方法,比如说这样:
图一:声音的时域表示对这个声强随着时间变化的函数f(t)f(t)做傅里叶变换,可以得到一个新的函数g(ω)=|g(ω)|eiφ(ω) g(\omega )=|g(\omega )|e^{i\varphi (\omega )},其中ω=2πf\omega =2\pi f。这里的ff就是我们平时常说的频率,|g(ω)||g(\omega )|称为振幅(也可以称为幅度),φ(ω)\varphi (\omega )称为相位。一般取|g(ω)||g(\omega )|为纵轴,频率ff(或者角频率ω\omega)为横轴做出图像,就是我们常说的频谱。这是声音的频域表示。
傅里叶变换所得到的频谱图表示了所处理的信号中各个频率部分所占的比重。单频率的声音(纯音)就是时域上的正余弦曲线。如图: <img src="https://pic1.zhimg.com/v2-84f07d794d095f7041153bf9fb7243d0_b.jpg" data-size="normal" data-rawwidth="560" data-rawheight="420" class="origin_image zh-lightbox-thumb" width="560" data-original="https://pic1.zhimg.com/v2-84f07d794d095f7041153bf9fb7243d0_r.jpg"/>
图二:纯音的时域表示和频域表示特别的,对于常见的比如人说话的声音、演奏的音乐、歌声等随时间变化的、非周期声信号,我们一般不会直接对整段信号做傅里叶变换,而是依次截取一小段时间间隔,分别做傅里叶变换,这种方法称为短时傅里叶变换,也叫做时频分析。以时间为横坐标,频率为纵坐标,颜色表示幅度,做出的图像称为时频图,也叫做语谱图。比如图一的时频图就长这样:
图三:时频图有了频谱的概念,接下来我们可以讨论,这些客观参数到底和主观感受(音调、响度、音色)有什么关系呢? 一、响度 响度是人耳对于声音大小的主观感受。 首先显而易见的是,声音的幅度越大,声音所蕴含的能量越大,人听起来就越响。 然而人耳对声压或者声能的感受并不是线性的,比如说,人并不会觉得1kHz、2kPa的纯音信号是1kHz、1kPa纯音信号的2倍响。 为了描述人耳对声压的实际感受,科学家定义了声压级(SPL)的概念: SPL=20logPPref SPL=20log\frac{P}{P_{ref}},单位为分贝(dB)。
其中PP为实际声压的有效值(其大小和幅度有关),Pref P_{ref}为参考声压,讨论空气中的声音时Pref=2×10−5PaP_{ref}=2\times 10^{-5}Pa,它代表的含义为:对于1kHz的纯音信号,人耳恰好听不到它时的声压。
可以认为,声压级改变10dB时,响度感觉增大一倍或者减半。然而由于“响度增大一倍”的主观性太强,这个结论的有效性也存在争议。 不同声压级所对应的生活场景如下: <img src="https://pic4.zhimg.com/v2-1d8bebfbc5fcf3aecc39d3163b1a4d53_b.jpg" data-size="normal" data-rawwidth="952" data-rawheight="850" class="origin_image zh-lightbox-thumb" width="952" data-original="https://pic4.zhimg.com/v2-1d8bebfbc5fcf3aecc39d3163b1a4d53_r.jpg"/>
图四:日常生活中常见声源的声压级虽然声音的声压级直接影响声音的响度,但是两者并非简单的一一对应的关系。 大量的听音实验表明,人耳对于响度的感知不仅仅与声信号的声压级有关,也跟声音的频率有关,人耳对于不同频率声音的敏感度并不相同。对于纯音信号,科学家通过等响度曲线来表明这种关系:
图五:等响曲线图中横轴为频率,纵轴为声压级,每条曲线表示上面各个点人们听起来是一样响的。我们可以发现,100Hz和1000Hz比,需要更大的声压才能听到一样响的声音。 表示响度的物理量为宋(Sone)和方(Phon),定义1dB的1kHz纯音信号响度为1方。方和宋的关系类似于声压和声压级的关系(即对数关系)。 响度除了和声压级、频率有关外,和信号的持续时间也有关系。对于持续时间少于200ms的纯音信号,人们会觉得声音越来越响,持续时间超过200ms后响度趋于稳定。 然而实际生活中,我们听到的声音通常含有多个频率成分而非单一频率的纯音。那么对于复音信号,它的响度是如何确定的呢? 答案是,非常复杂。 首先我们要知道,人耳对于不同频率的声音的分辨是有极限的。如果两个纯音信号的频率过于接近,人耳就无法清晰的分辨这两个信号了,这个频率范围称为临界频带。 处于临界频带内的混合信号,人耳对其响度的感知正比于这些信号的声能之和。 而对于不在一个临界频带内的混合信号,实验可知,保证总声压级不变的情况下,声源带宽越宽,声源所包含的频率越广,其响度越大。
[img=808,554][/img]" data-ke-src="data:image/svg+xml;utf8," width="808" style="border: 0px;">
图六:声源带宽对响度的影响那么,具体如何计算一段混合信号的响度呢? 没有一个简洁的公式,我们通常使用Zwicker响度计算模型(1975年确立为国际标准)或者Moore响度计算模型(2005年确立为美国标准)来进行近似计算。 参考资料:霍华德. 音乐声学与心理声学[M]. 北京:人民邮电出版社, 2010. |