利用自动语音识别进行语音可懂度评估
立即解锁
发布时间: 2025-08-22 01:17:10 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 利用自动语音识别进行语音可懂度评估
#### 1. 语音可懂度评估方法
传统的语音可懂度评估往往依赖一组听众的主观评价,但这种方式存在一定的局限性。现在可以采用捷克自动语音识别(ASR)系统进行评估,这种评估是客观且侵入式的,因为输入的文本是已知的,并且该评估具有完全可重复性。
在人机信息系统中,人类语音可能会经过编码、合成、受噪声干扰和增强等处理,最终需要信息系统进行解读,此时ASR提供的客观语音可懂度指标可以替代人工评估小组,这可以被称为文档到语音功能测试。由于这种侵入式评估的输入是文本,所以不需要输入和输出之间的时间同步,评估的可靠性取决于所应用的语音识别系统的质量。
对于押韵测试的可懂度评估,离散话语(或孤立词)ASR系统非常合适,因为测试中使用的单词之间没有句法或语法关系。相反,对于人类朗读的句子或文本转语音(TTS)系统的可懂度评估,则需要使用为特定语言开发的完整连续ASR系统。
#### 2. 自动语音识别系统
近年来,许多ASR系统的性能已经达到了可以应用于许多实际任务的水平,例如听写、广播新闻转录或语音操作信息服务。在正常(无噪声)条件下,配合合作的用户,它们能够以超过90%的高精度将语音转换为文本。捷克语的ASR系统也已经出现,不过其中一些仍处于开发中的原型阶段。
这里主要关注利贝雷茨技术大学研究团队在过去3年中开发的ASR系统,这些系统采用了两种类型的ASR引擎:
- **离散话语识别(DUR)引擎**:已应用于如PC语音控制或孤立词听写等系统中。其主要优点是非常健壮,即使对于捷克语所需的超大词汇量(至少50万个单词以上)也能快速工作。
- **连续语音识别(CSR)引擎**:使用起来更自然,特别是在听写任务中,并且是唯一可用于转录流畅语音的引擎。然而,其性能受词汇量限制,目前约为30万个单词。
原则上,DUR和CSR系统对语音韵律不敏感,因此仅可用于语音可懂度评估。
##### 2.1 离散语音识别
为了进行押韵测试实验,使用了为捷克语离散语音识别开发的ASR引擎。该引擎于20世纪90年代末在利贝雷茨技术大学设计,最近被应用于两款为运动障碍人士设计的语音控制辅助产品中:
- **MyVoice**:一种语音操作的键盘和鼠标替代品。
- **MyDictate**:允许完全免提听写和编辑捷克语文本。
对于包含适当选择(即易于发音且声学上有明显区别)命令词的典型命令列表,MyVoice的单词识别率(WRR)超过97%。而MyDictate需要解决更困难的任务,即区分字典中超过50万个捷克语单词。在不应用语言模型时,听写正常捷克语文本的平均识别得分约为65%;如果在识别过程中考虑先验单词概率,则约为92%。
其声学前端的操作流程如下:
1. 语音信号以8kHz的采样频率进行采样。
2. 以每10ms移动一次的25ms帧进行进一步处理。
3. 对每个信号帧进行参数化,得到13个梅尔频率倒谱系数(MFCC)及其一阶和二阶导数,从而构成一个由39个参数组成的特征向量。
4. 通过评估对数信号能量并检测其值跨越一组自适应设置水平的点来搜索语音的起始和结束点。
5. 单词模型由隐马尔可夫模型(HMM)类型的音素模型组成。一套由41个捷克语音素模型和7个噪声模型在包含约500名说话者约40小时标注语音的数据库上进行了训练,该训练数据库的主要部分是孤立说出的录制单词,与实际使用ASR系统的方式相同。
6. 所有HMM都有三个状态,每个状态由一个由64个高斯混合组成的输出概率密度函数表示。识别过程基于经典的维特比束搜索算法。
##### 2.2 连续语音识别
CSR系统同样由利贝雷茨技术大学开发,它能够转录任何长达5分钟的捷克语语音,并将其输出与参考文本进行比较。系统的评估模块按照以下公式计算句子的单词识别率:
\[Accuracy = \frac{N - S - D - I}{N}\]
其中,S是错误识别的单词数(替换),D是遗漏的单词数(删除),I是插入的单词数(插入),N是参考转录中的总单词数。
该CSR引擎的相关信息如下:
- 处理16kHz采样的数据。
- 使用标准的39个MFCC特征集。
- 其声学(依赖性别)模型基于41个捷克语音素和7个噪声的3状态100混合HMM(在约800名不同说话者提供的约50小时语音上进行训练)。
- 语言模型使用从大量(超过3GB)捷克语(主要是报纸)文本计算得到的平滑二元组。
#### 3. 实验
通过ASR系统评估语音可懂度的思路是:如果知道所说的内容以及识别结果,就可以计算出识别准确率得分,这个得分可以作为语音输入可懂度的相对度量。这里“相对”很重要,因为ASR系统本身会引入一些识别错误,例如词汇表中缺失某些单词。
##### 3.1 捷克语押韵测试
捷克语押韵测试由特斯拉电子研究所与捷克斯洛伐克科学院捷克语言研究所合作开发,于20世纪80年代用于捷克通信系统的可懂度测量,与单词和逻辑原子测试同时进行。
押韵测试与其他两种测试的不同之处在于,听众知道所读单词的几种变体,并标记出他们认为听到的那个。押韵测试的单词仅在一个辅音上有所不同,这种测试被称为封闭或受限选择测试,而其他测试的选择是自由的。押韵测试测量的可懂度结果介于单词测试和逻辑原子测试的可懂度之间。
最初的捷克语押韵测试包含50行共250个单词,每行包含5个一两个音节的相似单词,仅在开头的辅音音素上不同。为了高效快速地评估不同语音处理系统,该测试进行了修改和缩短,新的缩短版押韵测试包含100个单词,其中辅音的出现频率近似于捷克语中辅音的出现频率。
以下是缩短版捷克语押韵测试的部分内容示
0
0
复制全文
相关推荐










