从语音信号处理角度解读mic规格书

2019-12-24 2421

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 对于语音信号处理来说，输入音频数据的质量很重要。而mic作为声音的采集设备，会直接影响采集到声音的质量。虽然mic选型是硬件或者声学方面的工作重点，但是对于从事语音信号处理相关人员来说，理解mic规格书中的一些技术指标也是大有裨益的。本文结合国家标准对mic规格书中的一些指标进行说明。

从语音信号处理角度解读mic规格书

1 背景介绍

对于语音信号处理来说，输入音频数据的质量很重要。而mic作为声音的采集设备，会直接影响采集到声音的质量。虽然mic选型是硬件或者声学方面的工作重点，但是对于从事语音信号处理相关人员来说，理解mic规格书中的一些技术指标也是大有裨益的。本文结合国家标准对mic规格书中的一些指标进行说明。

2 参数解读

根据mic的制作工艺可以分为驻极体mic，MEMS mic等；根据mic的输出信号可以分为模拟mic和数字mic。总之，从多种角度看，mic存在差异，导致mic的规格书中的参数和指标也不尽相同。本文会结合图2.1^[1]^所示规格书截图进行说明。

如图2.1所示，规格书中给出了测试条件及指标，其中和语音信号处理相关的指标包括：灵敏度(Sensitivity)，信噪比(S/N Ratio)，频响曲线(Frequency)，最大声压级和总谐波失真(Max Input Sound Pressure Level)。

2.1 灵敏度

灵敏度是模拟输出电压（模拟mic）或数字输出值（数字mic）与输入声压之比，对任何麦克风来说都是一项关键指标。mic灵敏度一般在94 dB的声压级（1Pa有效声压对应的声压级）下，用1 kHz正弦波进行测量。mic在该输入激励下的模拟或数字输出信号幅度即是mic灵敏度^[2]^。

图2.1中的标准灵敏度为 -41dBV，对应的是模拟mic，模拟mic灵敏度的计算公式为

式(1)中Ref为1000 mV/Pa (1 V/Pa)。根据式(1)可知，-41dBV对应的灵敏度约为8.9mv/Pa，即经过该mic后，1Pa的声压会产生8.9mv的电压。有了该信息和前置放大器的增益，则可将mic经过前置放大的输出电平匹配至后续电路系统，进而作为ADC的输入。假设前置放大的增益是4倍，ADC后输出的数字信号满量程（0 dBFs）对应的电压是1V，那么该mic的灵敏度对应的数字信号的幅值约为 -29dBFs，计算公式为

因为语音信号处理希望数字信号的有效bit位尽可能多，即dBFs的值尽可能大。有了灵敏度的信息，可以选择合适前置放大增益，和ADC的转换比例来实现该目的。至于mic输入声压的范围下一小节会讨论。

这里顺便提及一下数字mic的灵敏度。数字mic的灵敏度只取决于一个设计参数，即最大声学输入。只要将满量程数字映射到mic的最大声学输入，则灵敏度一定是该最大声学信号与94 dB SPL参考信号之差。因此，如果数字mic的最大声学输入为120 dB，则该mic的灵敏度为 -26 dBFs(94 dB - 120 dB)。

2.2 信噪比和最大声压级

最大声压级就是mic能承受的最大输入声压对应的声压级，图2.1中为104dB SPL。这个就是mic正常工作时，输入的声压上限。而mic的输入声压下限可由信噪比这个参数得到。

信噪比指的是mic的灵敏度和固有噪声的比值，计算公式为

其中Vn为mic固有噪声引起的输出电压(V)，Sensitivity为mic灵敏度(V/Pa)。国标^[2]^中描述固有噪声的指标为“固有噪声引起的等效声压级”，即无外声场时，仅由mic固有噪声引起的输出电压，可以看作能产生相同有效值输出电压所对应的外部声压级。等效噪声级的计算公式为

其中SPLn为等效噪声级，Pref为参考声压2*10^-5 Pa。根据公式(3)和(4)可以推导出固有噪声引起的等效声压级与信噪比的关系为

图2.1中的信噪比为55dB，则固有噪声引起的等效声压级为39dB SPL。那么该mic的输入声压下限就是39dB SPL。综上可知该mic正常工作时，输入声压范围为39dB ~ 104dB SPL。

2.3 频响曲线和总谐波失真

频响曲线和总谐波失真都是描述mic输出电压幅度和输入声音频率之间关系的指标。

频响曲线描述的是mic的频率响应与给定用途的“理想”响应偏差不超过规定值所覆盖的频率范围^[2]^。图2.1给出的频率范围为50 ~ 16K Hz。规格书中的一种频率响应的曲线如图2.2^[1]^所示。从语音信号处理角度来看，希望频响曲线越平坦越好，平坦的频率范围越宽越好。

总谐波失真(THD)是描述mic幅度非线性的一个指标。“声系统和声系统设备中，幅度非线性会在输出端产生输入信号中不存在的信号。幅度非线性是频率，幅度和温度等因素的函数，甚至在信号幅度恒定时也是如此，因此它不是常量，有多种评价幅度非线性的方法^[3]^”。总谐波失真就是其中的一种方法。总谐波失真计算如图2.3^[3]^所示。

从语音信号处理的角度，希望总谐波失真越小越好。

3 小结

本文从语音信号处理的角度，结合国家标准对mic规格书中的一些指标进行说明，希望能够为从事语音信号处理相关人员提供一个角度，来理解mic的硬件指标。因为个人能力有限，不能就规格书中的所有参数进行说明。对其他参数指标感兴趣的读者，可以使用“规格书 + 国标”的方法来进行解读。

4 参考文献

[1] MIC标准规格书

[2] 中华人民共和国国家标准GB/T 12060.4-2012

[3] 中华人民共和国国家标准GB/T 12060.2-2011

原文作者：K'
点击查看原文

从语音信号处理角度解读mic规格书

从语音信号处理角度解读mic规格书

1 背景介绍