Audio-预训练模型-2019：wav2vec【利用自监督方式训练得到每一帧音频文件的表示（相对于机理特征的优势：可以融入上下文信息）；替换MFCC等通过机理得到的特征】

u013250861

已于 2024-02-17 00:05:47 修改

阅读量1.6k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： # Audio/预训练模型文章标签：人工智能深度学习语音识别

于 2022-10-28 15:27:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/127572005

Audio/预训练模型专栏收录该内容

10 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

Facebook AI Research团队提出的wav2vec模型通过无监督学习在大量音频数据上训练，生成可用于ASR的向量，减少对标注数据的依赖。模型采用对比损失函数，通过多层卷积神经网络提取上下文丰富的语音特征，增强了预训练模型在语音识别任务上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Facebook AI Research团队的文章，wav2vec: Unsupervised Pre-training for Speech Recognition

该模型非完整的ASR，而是一个将wav通过标记的、未标记的数据，通过无监督的方式进行训练，得到可以送入ASR中的向量；以提升ASR的准确率；

一、介绍

当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能（Amodei et al., 2016 [1]）。最近，在标注数据缺少的情况下，神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练，再在数据量受限的目标数据上fine-tune来提高下游任务的性能。对于需要大量工作来获取标记数据的任务（例如语音识别），这种预训练的方法尤其有效。

在本文中，作者提出了wav2vec模型，通过多层的卷积神经网络来提取音频的无监督语音特征。模型训练时的损失函数选取的是对比损失函数（contrastive loss），在训练时将正例间的距离拉近，负例间的距离拉远。

二、模型方法

整个模型分为两部分，encoder网络 f 和context网络 g ，分别得到浅层和深层的无监督语音特征，模型结构如图1所示。
在这里插入图片描述
encoder网络

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。