FunAsr默认语音识别模型体验对比(Paraformer)

Paraformer模型结构如上图所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 五部分组成。Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架,项目为Paraformer中文通用语音识别模型,采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。
在这里插入图片描述

代码

模型官网:【https://modelscope.cn/models】
网盘下载地址:【https://pan.baidu.com/s/17trh6UMOKnA-3zytu4Jgzw?pwd=zhan】

from funasr import AutoModel

model = AutoModel(
    model="./speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
    disable_update=True,
    #hotword="欢迎"  # 可选:添加热词提升识别准确率
    device="cpu"  # 或 "cuda" 如果有GPU
)    
res = model.inference(
    input="asr_example.wav"
)
print("识别结果:", res[0]["text"])

rtf_avg 表示 Real-Time Factor Average(实时因子平均值),用于衡量语音识别模型的处理速度与实时性的关系。其计算公式为:

rtf_avg = 模型处理音频的耗时 / 音频实际时长

数值越低越好 :rtf_avg 越低,代表模型效率越高,若 rtf_avg=1,则表示模型处理速度与音频时长同步(即实时处理);若 rtf_avg<1,说明处理速度优于实时性。

1. Paraformer语音识别-中文-通用-16k-离线-large-pytorch

模型:speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
非自回归语音识别模型,多个中文公开数据集上取得SOTA效果,可快速地基于ModelScope对模型进行微调定制和推理。

在这里插入图片描述

2. Paraformer分角色语音识别-中文-通用

模型:speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn
Paraformer-large长音频说话人模型,在普通长音频版基础上集成了CAM++说话人聚类分类功能,返回的结果中添加了句子级别的说话人分类结果。

在这里插入图片描述

3. Paraformer语音识别-中文-通用-16k-离线-large-长音频版

模型:speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
Paraformer-large长音频模型, 集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。

在这里插入图片描述

4. Paraformer语音识别-中文-通用-16k-离线-large-热词版

模型:speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404
Paraformer-large热词版模型,支持热词定制功能:实现热词定制化功能,基于提供的热词列表进行激励增强,提升热词的召回率和准确率。
当前版本会受到不同热词的影响,具体选择方式还需要进一步探索学习。

  • 无热词
    在这里插入图片描述

  • 热词:欢迎
    在这里插入图片描述

  • 热词:阿里巴巴
    在这里插入图片描述

5. SeACoParaformer热词语音识别-中文-通用-16k-离线-large

模型:speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
SeACoParaformer是阿里巴巴语音实验室提出的新一代热词定制化非自回归语音识别模型。相比于上一代基于CLAS的热词定制化方案,SeACoParaformer解耦了热词模块与ASR模型,通过后验概率融合的方式进行热词激励,使激励过程可见可控,并且热词召回率显著提升。Paraformer-large热词版模型支持热词定制功能:实现热词定制化功能,基于提供的热词列表进行激励增强,提升热词的召回率和准确率。
当前版本会受到热词的影响,热词会明显提升识别速率。

  • 无热词
    在这里插入图片描述
  • 热词:欢迎
    在这里插入图片描述
  • 热词:阿里巴巴
    在这里插入图片描述
<think>好的,我需要回答用户关于FunASR语音识别训练方法和教程的问题。首先,用户提到了几个引用资料,我需要先理解这些引用内容,以便在回答中正确引用。 根据引用[1],FunASR是一个基础语音识别工具包,支持多种功能,包括ASR、VAD、标点恢复等,并提供预训练模型的推理与微调。引用[3]提到FunASR的核心模型Paraformer,使用了大规模工业语料库训练,特别是60,000小时的标注数据,并且提到了时间戳预测和热词定制功能。此外,还提到了FSMN-VAD模型和CT-Transformer标点模型。 用户想知道如何训练FunASR模型,特别是训练方法或教程。首先,我需要整理FunASR官方文档中提到的训练步骤,可能包括数据准备、模型配置、训练流程、微调方法等。同时,用户提供的引用中没有直接提到训练教程,但引用[1]提到有便捷的脚本和教程支持微调,因此需要指出用户参考官方文档和脚本。 接下来,我需要确保回答结构清晰,分步骤说明训练方法,并引用相关的参考文献。例如,在数据准备部分,可以引用引用[3]提到的数据集;在模型架构部分,提到Paraformer和非自回归模型的特点;在微调时,引用[1]和[3]中的信息。 同时,用户可能需要知道如何应用预训练模型进行微调,以及如何处理特定任务,如热词定制,这部分可以引用引用[3]。另外,说话人分离部分在引用[2]中有提到,可能涉及到多说话人数据处理的步骤,但用户主要关注的是语音识别训练,因此可能需要简要提及相关技术。 需要确保回答中包含具体的步骤,例如数据格式要求、配置文件修改、训练命令示例等,帮助用户实际操作。此外,生成相关问题时要围绕训练方法、数据准备、微调技巧、模型评估等展开。 最后,检查是否符合系统级指令:使用正确的中文和LaTeX格式,没有行内数学公式所以可能不需要,但如果有公式要使用$...$。独立公式不需要,因此可能不涉及。确保引用标识正确添加,如[^1]、[^2]、[^3]在相关部分末尾。</think>FunASR语音识别的训练方法主要包含数据准备、模型配置、微调优化等步骤。以下是具体实现流程: ### 一、数据准备 1. **数据集要求** 需准备带标注的音频数据集,格式为`.wav`或`.pcm`,采样率建议16kHz。标注文件需包含音频路径、文本内容及时间戳(可选),例如: ``` /data/audio_001.wav 你好,欢迎使用FunASR。 0.00 3.20 ``` Paraformer模型依赖大规模工业语料库训练,官方推荐使用60,000小时以上的标注数据。 2. **数据预处理** 使用FunASR提供的工具进行特征提取(如FBank)、语音分段(VAD)和标点恢复。例如,通过FSMN-VAD模型分割长音频: ```bash python -m funasr.bin.vad_infer --model_dir=models/fsmn-vad --wav_path=input.wav ``` ### 二、模型架构与训练 1. **核心模型选择** FunASR默认使用**Paraformer**(非自回归端到端模型),支持并行解码以提升训练效率。其损失函数结合了交叉熵(CE)和连接时序分类(CTC)。 2. **配置文件修改** 修改训练配置文件(如`conf/train_asr_paraformer.yaml`),设置: - 输入特征维度(如80维FBank) - 词汇表路径(根据标注文本生成) - 学习率、批量大小等超参数 3. **启动训练** 运行训练脚本并指定数据路径: ```bash python -m funasr.bin.train asr --config conf/train_asr_paraformer.yaml --data_dir /path/to/data ``` ### 三、微调与优化 1. **热词定制** 在特定领域(如医疗、法律)中,可通过添加热词列表提升识别准确率。在配置文件中定义热词文件路径: ```yaml hotword_list: data/hotwords.txt ``` 2. **时间戳预测** 若需输出字级时间戳,启用Paraformer的时间戳预测模块,并在标注文件中包含时间信息。 3. **混合精度训练** 使用NVIDIA Apex或PyTorch AMP加速训练: ```bash python -m funasr.bin.train asr --fp16 true ... ``` ### 四、模型验证与部署 1. **评估指标** 使用词错误率(WER)和字错误率(CER)评估模型性能: ```bash python -m funasr.bin.asr_infer --model_dir=path/to/model --test_set=data/test.json ``` 2. **导出部署模型** 将训练好的模型转换为ONNX格式以优化推理速度: ```bash python -m funasr.export.export_model --model_name paraformer --export_dir=onnx_models/ ``` ### 五、官方资源推荐 - **代码示例**:GitHub仓库的`egs`目录提供完整训练案例 - **文档参考**:[语音识别实战教程](引用声源分离技术文档链接) - **预训练模型**:从Model Zoo下载基础模型进行迁移学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

具身小站

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值