【Python语音识别系列】音频文件采样率转换的两种方法实现(案例+源码)

这是我的第410篇原创文章。

一、引言

如果你的音频文件采样率是48kHz,而很多语音模型比如speech_fsmn_vad_zh-cn-16k-common-pytorch模型仅支持16kHz采样率的音频,那么你需要在将音频输入模型之前,将音频文件的采样率从48kHz转换为16kHz。

以下是一个使用Python进行采样率转换的简单方法。

二、实现过程

2.1 使用scipy库进行采样率转换

代码:

import numpy as np
from scipy.io import wavfile
from scipy.signal import resample

# 读取48kHz的音频文件
input_file = '录音.wav'
output_file = '录音-16k.wav'
sample_rate_48k, data = wavfile.read(input_file)

# 确保音频是单声道
if data.ndim > 1:
    data = data[:, 0]

# 计算重采样后的样本数量
num_samples_16k = int(len(data) * 16000 / sample_rate_48k)

# 使用scipy的resample函数进行重采样
data_16k = resample(data, num_samples_16k)

# 保存为16kHz的音频文件
wavfile.write(output_file, 16000, data_16k.astype(np.int16))

结果:

图片

2.2 使用pydub库进行采样率转换

代码:

from pydub import AudioSegment

# 加载48kHz的音频文件
audio = AudioSegment.from_wav('录音.wav')

# 转换采样率为16kHz
audio_16k = audio.set_frame_rate(16000)

# 导出转换后的音频文件
audio_16k.export('录音-16k-2.wav', format='wav')

结果:

图片

转换完成后,你就可以将16kHz的音频文件输入到speech_fsmn_vad_zh-cn-16k-common-pytorch模型中进行处理。

作者简介:

读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据杂坛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值