
语音识别
文章平均质量分 69
张飞飞飞飞飞
Hello World
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语音识别——文本转语音
edge-tts利用微软Edge的在线文本转语音服务,提供比Python自带pytts更自然的语音效果。安装需pip安装edge-tts和mpv播放器,支持终端直接播放(--text参数)或保存为MP3(--write-media)。Python可通过subprocess调用edge-tts进程,将音频管道传输给mpv实现实时播放,示例代码展示了如何设置语音类型(如zh-CN-XiaoxiaoNeural)和音量调节,避免生成临时文件原创 2025-05-26 16:38:31 · 575 阅读 · 0 评论 -
语音识别——通过PyAudio录入音频
PyAudio是一个强大的Python库,专为音频处理设计,支持音频的录制和播放。用户可以通过PyAudio从麦克风等设备录制音频,并将其保存为文件或进行进一步处理。安装PyAudio只需执行pip install pyaudio命令。录制音频的基本步骤包括初始化PyAudio、设置音频流参数、开始录制、读取并保存数据,最后停止原创 2025-05-15 10:39:18 · 652 阅读 · 0 评论 -
语音识别——声纹识别
通过将说话人的声音与数据库中的记录声音进行比对,判断说话人是否为数据库白名单中的同一人,从而完成语音验证。目前,3D-Speaker 声纹验证的效果较为出色。3D-Speaker 是一个开源工具包,可用于单模态和多模态的说话人验证、说话人识别以及说话人日志分割。原创 2025-05-15 10:34:22 · 2326 阅读 · 0 评论 -
语音识别——语音转文字
阿里开源的SenseVoiceSmall模型是一款具备音频理解能力的音频基础模型,支持语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件检测(AED)等功能。经过超过40万小时的数据训练,该模型支持50多种语言,并在多语言识别、情感辨识和音频事件检测方面表现出色。SenseVoiceSmall采用非自回归端到端框架,推理延迟极低,10秒音频推理仅耗时70毫秒,效率显著优于Whisper-Large模型。此外,该模型提供便捷的微调脚本和完整的服务部署链路,支持多并发请求和多种客户端语言。原创 2025-05-15 10:22:19 · 2332 阅读 · 0 评论 -
语音识别——根据声波能量、VAD 和 频谱分析周围是否有人说话
语音活动检测(Voice Activity Detection,简称VAD)。简单来说,VAD就是用来判断一段音频里有没有人说话的技术。在实时语音识别的场景里,这个技术特别重要,因为它决定了什么时候把采集到的音频数据扔进大模型里处理。但问题来了:怎么精准判断“最佳时机”呢?用如果固定时间间隔的方法,问题就大了——间隔太短,模型会频繁启动,浪费算力,还抓不住完整的一句话;间隔太长,文字输出就会拖拖拉拉,用户体验直接崩掉。为了解决这个难题,大家常用webrtcvad库里的VAD_MODE方法。原创 2025-04-14 16:06:22 · 1712 阅读 · 1 评论 -
语音识别——根据声波能量、VAD 和 频谱分析实时输出文字
4. 对每个采集的音频块分析,需要连续几次(required_speech_frames)达到说话的条件才记录,超过(required_silence_frames)没说话则输出文字,超过(long_silence_frames)帧没听到声音则认为不再说话,退出监听状态。然而,我在实际测试中发现,这种方法在某些场景下不够灵敏,尤其是在白噪音较大或较小的环境中,难以做到真正的自适应。提供了丰富的模型资源和详细的调用代码。有些相似,但作为国产社区,它在本地化支持和模型适配上有着独特的优势,值得推荐。原创 2025-04-11 09:55:31 · 1052 阅读 · 0 评论