口语理解:语音识别技术的发展与模型解析
立即解锁
发布时间: 2025-08-30 00:43:57 阅读量: 24 订阅数: 25 AIGC 


人工智能:从理论到应用
# 语音识别技术:模型、发展与优化
## 1. 语音识别概述
语音识别是将人类语音转换为文本的技术,其发展历程丰富多样。在早期,即 20 世纪 60 年代就出现了简单的单词识别模型。到了 80 年代,IBM 在 Fred Jelinek 的带领下,开发出了语音控制打字机“Tangora”,它能够理解 20,000 个单词的词汇量,这得益于统计模型(如隐马尔可夫模型)的应用,推动了该领域的重大进步。
90 年代,随着更快的微处理器的出现,语音识别迎来了首次突破,面向消费者的“Dragon Dictate”诞生,其扩展版“Dragon Naturally Speaking”每分钟可识别 100 个单词。这些模型通常包含声学模型(将语音信号映射到音素或字母)和语言模型(区分正确和不合理的单词序列)两个子模型。
大约在 2007 年,循环 LSTM 模型首次超越了传统的语音识别算法。仅过了一年,借助深度神经网络的应用,语音识别的错误率降低了 30%。到 2017 年,微软推出了达到人类识别准确率的语音识别系统。
## 2. 深度序列到序列模型
### 2.1 Listen - Attend - Spell 生成字母序列
语音识别问题可被视为翻译任务,输入是固定 10 毫秒时间间隔的频率特征序列,输出是字母或单词序列。在序列到序列模型在语言翻译领域取得成功后,将其应用于语音识别是自然而然的选择。与以往由多个子模型组成的语音识别系统不同,序列到序列模型的所有部分可以进行端到端的训练,这样能使各模型部分达到最佳匹配。
Chan 等人在 2016 年开发了 Listen - Attend - Spell(LAS)模型,它是最早将音频特征转换为字母的序列到序列模型之一。该模型使用双向 LSTM 作为编码器,带注意力机制的 LSTM 作为解码器来生成输出文本的字母序列。然而,由于输入特征序列(每秒约 100 个)相较于输出字母数量过长,模型最初收敛缓慢甚至无法收敛。为解决这一问题,作者通过连接每两个连续时间步的隐藏向量来缩短编码器双向 LSTM 的输入长度,将得到的向量作为下一层双向 LSTM 的输入。通过使用三层隐藏向量长度为 512 的双向 LSTM,这个“金字塔编码器”将序列长度缩短为输入长度的 1/8,使注意力计算变得更简单有效。
解码器的工作方式与翻译模型类似。一个两层 LSTM 计算下一个要预测字母的隐藏向量。在计算过程中,会计算解码器和编码器隐藏向量之间的注意力,并从编码器隐藏向量中形成上下文向量,将其附加到解码器隐藏向量后输入到逻辑回归模型,以计算下一个字母的概率分布。
该模型在 2000 小时的谷歌搜索数据上使用随机梯度下降进行训练,随机选取 10 小时的查询作为验证集。查询部分叠加了来自 YouTube 日常环境视频的不同类型背景噪声,使数据量增加了 20 倍。输入采用每 10 毫秒 40 维的 MFCC 特征,约 22,000 个搜索查询和 16 小时的音频记录作为测试数据,同样叠加了背景噪声。所有语音数据都手动转录为小写文本,并标记了输入的开始和结束。
由于该语音识别模型使用的文本相对较少,无法像基于大量文本训练的语音模型那样很好地表示语音规律,因此使用预训练的语言模型对概率进行缩放:
$\hat{s}(y_t|y_1, \ldots, y_{t - 1}, x) = \hat{p}(y_t|y_1, \ldots, y_{t - 1}, x) * \hat{p}_{LM}(y_t|y_1, \ldots, y_{t - 1})^{\lambda}$
其中,$\hat{p}_{LM}(y_t|y_1, \ldots, y_{t - 1})$ 是语言模型计算的概率,$\lambda$ 因子通过验证集确定。在应用训练好的模型时,使用具有 32 个备选的束搜索来确定文本输出。结果显示,LAS 模型单独使用时的单词错误率为 14.1%,结合语音模型后可提高到 10.3%,有额外噪声时结果会差 2%。当时最好的模型(CLDNN - HMM)的单词错误率为 8.0%。具体数据如下表所示:
| 模型 | 无噪声 WER | 有噪声 WER |
| ---- | ---- | ---- |
| CLDNN - HMM | 8.0 | 8.9 |
| LAS | 14.1 | 16.5 |
| LAS & 语言模型 | 10.3 | 12.0 |
### 2.2 用于单词和音节的序列到序列模型
Zeyer 等人在 2018 年使用带有 LSTM 单元的循环神经网络作为序列到序列网络的编码器和解码器。解码器输出由字节对编码(BPE)确定的 10,000 个标记,这使得解码器网络的子步骤减少,注意力机制能够描述更复杂的依赖关系,并且词汇不受限制,因为 BPE 可以用标记表示任意单词。
编码器模型的步骤减少借助最大池
0
0
复制全文
相关推荐










