深度学习和机器学习在图像和视觉⽅⾯有很多的研究,⽽且取得了很好的效果,但是在⾳频处理⽅⾯还是⽐较弱,还有很⼤的提升空间。库音频分析,在很多时场景也有很好的应用场景,第一次开展音频分析时,需要针对音频分析需求,安装音频分析常见依赖包。图像上有openCV这个强⼤的库,⽽在⾳频⽅⾯有哪些⽐较合适的库呢?
1.知识了解
1.1特征指标选择,同样问AI即可,AI总结的特征指标相当完整,挑选自已需求的指标进行描述
时间域特征
均值(Mean):音频信号在时间上的平均值。
能量(Energy):音频信号的整体能量。
零交叉率(Zero-Crossing Rate):信号在时间域中经过零点的次数,用于检测无声段和有声段。
短时能量(Short-Time Energy):计算音频信号短时窗口内的能量,用于语音活动检测。
频域特征
频谱质心(Spectral Centroid):频谱的重心位置,用于描述频谱的“亮度”。
频谱带宽(Spectral Bandwidth):频谱的宽度,用于描述频谱的分布范围。
频谱平坦度(Spectral Flatness):频谱的平滑程度,用于区分噪声和音乐信号。
频谱滚降点(Spectral Rolloff):频谱能量累计达到某个阈值的频率点。
其他频谱特征
梅尔频谱(Mel Spectrogram):基于梅尔尺度的频谱表示,更符合人耳听觉特性。
梅尔频率倒谱系数(MFCCs):从梅尔频谱提取的特征,用于语音识别和音频分类。
色谱(Chromagram):表示音频信号在不同音高上的能量分布,用于音乐分析。
时频域特征
短时傅里叶变换(STFT):通过短时傅里叶变换获取的时频域特征,常用于频谱分析。
连续小波变换(CWT):通过小波变换获取的时频域特征,用于多分辨率分析。
高阶特征
音调(Pitch):音频信号