【Python语音识别系列】音频文件采样率转换的两种方法实现（案例+源码）

本文链接：https://blog.csdn.net/sinat_41858359/article/details/148605143

这是我的第410篇原创文章。

一、引言

如果你的音频文件采样率是48kHz，而很多语音模型比如speech_fsmn_vad_zh-cn-16k-common-pytorch模型仅支持16kHz采样率的音频，那么你需要在将音频输入模型之前，将音频文件的采样率从48kHz转换为16kHz。

以下是一个使用Python进行采样率转换的简单方法。

二、实现过程

2.1 使用`scipy`库进行采样率转换

代码：

import numpy as np
from scipy.io import wavfile
from scipy.signal import resample

# 读取48kHz的音频文件
input_file = '录音.wav'
output_file = '录音-16k.wav'
sample_rate_48k, data = wavfile.read(input_file)

# 确保音频是单声道
if data.ndim > 1:
    data = data[:, 0]

# 计算重采样后的样本数量
num_samples_16k = int(len(data) * 16000 / sample_rate_48k)

# 使用scipy的resample函数进行重采样
data_16k = resample(data, num_samples_16k)

# 保存为16kHz的音频文件
wavfile.write(output_file, 16000, data_16k.astype(np.int16))

结果：

2.2 使用`pydub`库进行采样率转换

代码：

from pydub import AudioSegment

# 加载48kHz的音频文件
audio = AudioSegment.from_wav('录音.wav')

# 转换采样率为16kHz
audio_16k = audio.set_frame_rate(16000)

# 导出转换后的音频文件
audio_16k.export('录音-16k-2.wav', format='wav')

结果：

转换完成后，你就可以将16kHz的音频文件输入到speech_fsmn_vad_zh-cn-16k-common-pytorch模型中进行处理。

作者简介：

读研期间发表6篇SCI数据挖掘相关论文，现在某研究院从事数据算法相关科研工作，结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创，以最简单的方式理解和学习，关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。