Paraformer模型结构如上图所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 五部分组成。Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架,项目为Paraformer中文通用语音识别模型,采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。
代码
模型官网:【https://modelscope.cn/models】
网盘下载地址:【https://pan.baidu.com/s/17trh6UMOKnA-3zytu4Jgzw?pwd=zhan】
from funasr import AutoModel
model = AutoModel(
model="./speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
disable_update=True,
#hotword="欢迎" # 可选:添加热词提升识别准确率
device="cpu" # 或 "cuda" 如果有GPU
)
res = model.inference(
input="asr_example.wav"
)
print("识别结果:", res[0]["text"])
rtf_avg 表示 Real-Time Factor Average(实时因子平均值),用于衡量语音识别模型的处理速度与实时性的关系。其计算公式为:
rtf_avg = 模型处理音频的耗时 / 音频实际时长
数值越低越好 :rtf_avg 越低,代表模型效率越高,若 rtf_avg=1,则表示模型处理速度与音频时长同步(即实时处理);若 rtf_avg<1,说明处理速度优于实时性。
1. Paraformer语音识别-中文-通用-16k-离线-large-pytorch
模型:speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
非自回归语音识别模型,多个中文公开数据集上取得SOTA效果,可快速地基于ModelScope对模型进行微调定制和推理。
2. Paraformer分角色语音识别-中文-通用
模型:speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn
Paraformer-large长音频说话人模型,在普通长音频版基础上集成了CAM++说话人聚类分类功能,返回的结果中添加了句子级别的说话人分类结果。
3. Paraformer语音识别-中文-通用-16k-离线-large-长音频版
模型:speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
Paraformer-large长音频模型, 集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。
4. Paraformer语音识别-中文-通用-16k-离线-large-热词版
模型:speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404
Paraformer-large热词版模型,支持热词定制功能:实现热词定制化功能,基于提供的热词列表进行激励增强,提升热词的召回率和准确率。
当前版本会受到不同热词的影响,具体选择方式还需要进一步探索学习。
-
无热词
-
热词:欢迎
-
热词:阿里巴巴
5. SeACoParaformer热词语音识别-中文-通用-16k-离线-large
模型:speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
SeACoParaformer是阿里巴巴语音实验室提出的新一代热词定制化非自回归语音识别模型。相比于上一代基于CLAS的热词定制化方案,SeACoParaformer解耦了热词模块与ASR模型,通过后验概率融合的方式进行热词激励,使激励过程可见可控,并且热词召回率显著提升。Paraformer-large热词版模型支持热词定制功能:实现热词定制化功能,基于提供的热词列表进行激励增强,提升热词的召回率和准确率。
当前版本会受到热词的影响,热词会明显提升识别速率。
- 无热词
- 热词:欢迎
- 热词:阿里巴巴