音频转文字哪家强？faster-whisper还是paddlespeech,我的折腾吐槽记录

最新推荐文章于 2025-03-08 22:17:51 发布

原创

最新推荐文章于 2025-03-08 22:17:51 发布 · 2.6k 阅读

55 ·

CC 4.0 BY-SA版权

文章标签：

#whisper #python #语音识别

前言

作为一个魔武双修的python程序员，面对产品小姐姐提出的需求。我只能迎难而上。

目前开源的音频转文字都有哪些？效果如何？速度怎么样？带着这一连串的问题，我在github的海洋里畅游良久。接下来我把我的发现都记录如下。

1. paddlespeech

其实我在去年的时候发现过这个东西，当时测试过，速度和正确率忘记了。主要印象是搭建起来挺费劲，如官方写的那样很全面，我废了大半天迷失在了csdn的报错解决文章中。

PaddleSpeech: Easy-to-use Speech Toolkit including SOTA ASR pipeline, influential TTS with text frontend and End-to-End Speech Simultaneous Translation. (gitee.com)https://gitee.com/paddlepaddle/PaddleSpeech

稍微记录下我的搭建过程：等后续我顿

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我是雨哥小粉丝

关注关注

48
点赞
踩
55

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

揭秘faster-whisper参数全貌：用法详解+开发者指南

代码简单说 Vue、JAVA、PHP、Node.js 熟练运用，接口、架构、性能全搞定。

06-19

213

这份参数指南可以作为你使用做语音识别/翻译任务的“说明书”。未来你在优化识别速度、准确率或字幕时间对齐方面，只要调对参数，就能有质变的提升。如果你也在做音频字幕系统或语音转文字项目，欢迎评论交流你的实战经验！我正在开发一套支持中英字幕生成 + 分段编辑 + 关键词识别的系统，后续也会开源出来，记得关注哟！👉 关注我，第一时间获取前端 + AI 项目实战干货。

PaddleSpeech 文本转语音(TTS)功能详解与使用指南

gitblog_00505的博客

06-03

476

PaddleSpeech 文本转语音(TTS)功能详解与使用指南一、文本转语音技术概述文本转语音(Text-to-Speech, TTS)是一种将书面文字转换为自然语音输出的技术。作为自然语言处理的重要分支，TTS技术在语音助手、有声读物、导航系统等领域有着广泛应用。 PaddleSpeech提供的TTS功能基于深度学习技术，能够生成高质量的语音输出。该系统采用模块化设计，包含声学模型和声码器...

参与评论您还未登录，请先登录后发表或查看评论

太牛批了，一款本地语音神器，完全免费，吾爱出品

luyun020202的博客

03-08

684

Whisper是一款基于「Faster Whisper模型」开发的本地语音识别转文字工具。能够在不依赖GPU加速的情况下，仅凭CPU运算就展现出令人瞩目的转换速度和准确度。这款软件完全离线运行，有效保护隐私，支持「多种语言」识别，并且「识别准确率很高」，可媲美OpenAI官方API。

【Paddle实战】基于PaddleSpeech搭建私人录音转文字服务

qq_39172059的博客

03-10

2230

将result.csv文件读入，拼成完整的段落，利用TextExecutor进行标点符号修正，最终将修正结果存入final_result.txt文件。遍历每一个文件，将它们分别送入ASRExecutor进行识别，所有识别文本集中保存到列表words里，最终写入result.csv文件。通过auditok.split来对音频进行切分，切分后新建目录：change/audio/文件名/，将文件存入该目录。将会议录音文件录音.wav放入工程目录下，执行程序，结果如下。API调用语音识别。

paddle实现语音转文字

kewei chen

04-30

1829

pip install paddlepaddle-gpu==2.2.1.post101 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html #升级paadlepaddle-gpu pip install paddlespeech git clone https://gitee.com/qmckw/audio-to-text.git#克隆主仓 cd audio-to-text pip install tqdm==4.64.0 py.

paddle-语音转文本

zj850324的博客

05-10

806

【代码】paddle-语音转文本。

whisper、whisper.cpp、faster-whisper的比较_faster-whisper比whisper优点

月流霜的专栏

08-25

1515

让我们比较一下当前的whisper、whisper.cpp和faster-whisper。OpenAI / Whisper 自发布以来，似乎在各个方面都发生了变化，例如在 2022 年 12 月增加了 large-v2 模型和各种版本升级。whisper.cpp是用 CPU 的 C/C++ 编写的。它似乎是Core ML支持，所以它对于Mac用户有强烈的感觉。

智能语音问答机器人本地部署win10--2024最新版（faster-whisper + Qwen1.5 + ChatTTS）

imok1234567的博客

08-02

2305

本项目旨在实现一个智能语音问答机器人的本地部署，采用Windows 10操作系统，并集成了最新的语音识别和生成技术。通过结合faster-whisper、Qwen1.5和ChatTTS三大模块，机器人能够高效地进行语音识别、自然语言处理和语音合成，为用户提供流畅的语音问答体验。

高效耳语模型：Faster-Whisper

02-08

Faster-Whisper使用CTranslate2重新实现了OpenAI的Whisper模型，CTranslate2是Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。对于需要高效Transformer模型推理...

faster_whisper-0.10.0-py3-none-any.whl.zip

05-19

标题 "faster_whisper-0.10.0-py3-none-any.whl.zip" 提供的信息表明，这是一个包含Python库"Faster Whisper"的压缩包，版本为0.10.0。"whl"是Python中的 Wheel 文件格式，它是预编译的Python包，用于简化安装过程，...

基于faster whisper实时语音识别语音转文本python源码

12-31

模块： fast_whisper pyaudio 博客地址：blog.csdn.net/FL1623863129/article/details/135319194 视频演示：bilibili.com/video/BV1fQ4y1j7wb

PaddlePaddle-DeepSpeech中文语音识别模型（free_st_chinese_mandarin_corpus）

03-19

PaddlePaddle-DeepSpeech中文语音识别模型（free_st_chinese_mandarin_corpus数据集训练的）项目地址：https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/tree/release/1.0

faster_whisper语音识别

TuringEvo专栏

05-23

1109

检测可用设备：list_available_devices()函数。2 从音频设备读取数据，传递给 faster_whisper 识别。我这边usb摄像头带麦克风的，所以 DEV_index = 8。1 使用 pyaudio 打开音频设备。按键 r 录制 s 停止 q退出。

音频转文本--我们选择faster-whisper

goggle1的专栏

04-02

2147

这里建议只下载faster-whisper-large-v2模型，也就是大模型的第二版，因为faster-whisper本来就比whisper快，所以使用large模型优势就会更加的明显。faster-whisper项目内部已经整合了VAD算法，VAD是一种音频活动检测的算法，它可以准确的把音频中的每一句话分离开来，并且让whisper更精准的定位语音开始和结束的位置。使用faster-whisper，最好选择python3.10版本，那好吧。回到项目根目录faster-whisper-webui下，

Faster-Whisper 实时识别电脑语音转文本

精通搬砖，资深技术砖家，在软件开发，人工智能，设备开发等领域都有研究。商业合作&交流学习可私信联系。

07-22

821

以前做的智能对话软件接的Baidu API，想换成本地的，就搭一套Faster-Whisper吧。下面是B站视频实时转写的截图参考项目搭建环境所需要的CUDANN已经装好了，如果装的是12.2应该是包含cuBLAS了没装的，可以从下面链接下载装一下，文末的参考视频中也有讲解Ancanda的运行环境去Clone一下之前配好的环境，用之前BertVits的即可安装Faster-Whisper输入即可安装下载模型下载完放到代码旁边就可以了。

一键智能视频语音转文本——基于PaddlePaddle语音识别与Python轻松提取视频语音并生成文案

知来者逆的博客

09-30

9124

这个项目的核心算法是基于PaddlePaddle的语音识别加Python实现了一键从视频转成文本的功能，项目支持可以处理短语音识别、长语音识别、实现输入的语音识别，项目有完整的代码，带UI界面。

基于OpenAI的Whisper构建的高效语音识别模型：faster-whisper

最新发布

08-01

<think>我们讨论的是如何提升Systran的faster-whisper-large-v3模型的响应速度。faster-whisper是Whisper模型的一个改进版本，主要使用CTranslate2进行推理加速。以下是一些提升响应速度的方法： 1. **使用更快的推理引擎**：faster-whisper本身已经使用了CTranslate2，这是一个高效的推理引擎，比原始PyTorch实现更快且内存占用更少。确保你使用的是最新版本的CTranslate2和faster-whisper。 2. **量化模型**：CTranslate2支持模型量化，可以将模型参数从浮点数转换为低精度的整数（如int8、int16），从而减少内存占用和提高计算速度。量化可能会轻微降低精度，但通常速度提升明显。你可以尝试使用预量化的模型或者自己量化。 3. **调整计算设备**：确保模型在GPU上运行（如果可用）。可以通过设置`device`参数为`cuda`。如果有多块GPU，可以指定使用哪一块或者使用多GPU推理。 4. **批处理（Batch Processing）**：如果同时处理多个音频文件，使用批处理可以显著提高吞吐量。在调用模型时，将多个音频文件组成一个列表一起传入。 5. **调整解码参数**： - `beam_size`：束搜索的宽度，减小束大小可以加快解码速度，但可能会降低识别准确率。 - `vad_filter`：启用语音活动检测（VAD）可以跳过静音部分，减少需要处理的音频长度，从而加快推理速度。 - `compression_ratio_threshold`和`logprob_threshold`：调整这些参数可以提前结束不太可能的假设，加快解码。 6. **优化音频预处理**：确保音频以模型所需的格式（16kHz单声道）提供，避免在推理过程中进行重采样等操作。可以提前将音频转换为合适的格式。 7. **使用更小的模型**：如果速度是首要考虑，而精度可以稍微降低，可以尝试使用faster-whisper的较小版本（如base、small等），而不是large-v3。 8. **硬件加速**：使用性能更好的GPU，或者使用TensorRT等进一步优化模型。 9. **多线程**：CTranslate2支持多线程推理，可以通过设置`inter_threads`和`intra_threads`参数来利用多核CPU/GPU。 10. **减少日志输出**：关闭不必要的日志输出，避免I/O阻塞。以下是一个使用faster-whisper的示例代码，其中包含了一些加速的参数设置： ```python from faster_whisper import WhisperModel # 加载模型，使用量化并指定设备 model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16") # 或者使用多线程（例如，设置4个线程用于模型内的并行） # model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16", cpu_threads=4) # 使用VAD过滤，并调整束搜索大小 segments, info = model.transcribe("audio.mp3", beam_size=5, # 减小束大小 vad_filter=True, # 开启VAD compression_ratio_threshold=2.4, # 调整压缩比阈值 logprob_threshold=-0.8) # 调整对数概率阈值 for segment in segments: print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text)) ``` 注意：量化类型`compute_type`的选择取决于硬件，例如在支持FP16的GPU上使用`float16`会更快，而`int8`会进一步加速但可能损失一些精度。请根据实际应用场景调整这些参数以达到速度和精度的平衡。 §§相关问题§§ 1. 如何量化faster-whisper模型以提升推理速度？ 2. 在使用faster-whisper时，如何调整束搜索(beam search)参数以平衡速度和准确率？ 3. 如何利用多GPU来加速faster-whisper模型的推理？ 4. 在faster-whisper中，语音活动检测(VAD)是如何工作的，它如何帮助提升速度？ 5. 除了量化，还有哪些CTranslate2特有的优化技术可以用于加速faster-whisper？</think>### 如何提升 Systran faster-whisper-large-v3 的响应速度？提升响应速度的核心策略围绕**计算优化**、**硬件利用**和**参数调整**展开： 1. **启用模型量化** 使用低精度格式加载模型，显著减少显存占用和计算量： ```python model = WhisperModel("large-v3", compute_type="int8") # 可选 int8/int16/float16 ``` 2. **硬件加速配置** - 强制使用 GPU：`device="cuda"` - 启用 Tensor Core（NVIDIA GPU）：`compute_type="float16"` - 多 GPU 并行：`device="cuda" device_index=[0,1]` 3. **批处理与并行优化** ```python segments, _ = model.transcribe(audio, batch_size=16, # 增大批处理量 num_workers=4, # 多进程预处理 beam_size=3) # 减小束搜索宽度 ``` 4. **音频预处理加速** - 预转换音频为 16kHz 单声道 WAV - 使用 `librosa.load()` 替代默认加载器 - 开启 VAD 跳过静音段：`vad_filter=True` 5. **解码参数调优** ```python model.transcribe(..., compression_ratio_threshold=2.4, # 过滤低质量结果 logprob_threshold=-0.8, # 剪枝低概率路径 patience=1.0) # 降低束搜索迭代次数 ``` 6. **基础设施优化** - 使用 CUDA 11+ 和 cuDNN 8.x - 升级到最新版 faster-whisper 和 CTranslate2 - 对长音频启用分块处理：`chunk_length=30` **典型速度对比**（Tesla V100）： | 配置 | 实时率 (RTF) | 显存占用 | |------|-------------|---------| | 原始 FP32 | 0.4x | 12GB+ | | FP16 + 批处理 | 1.8x | 6GB | | **INT8 + 多GPU** | **3.5x** | **3GB** | > ⚠️ 注意：量化会轻微降低准确率，建议在业务场景中测试精度损失容忍度