语音学与声学信号解读
立即解锁
发布时间: 2025-09-04 00:39:24 阅读量: 12 订阅数: 24 AIGC 


自然语言处理入门
### 语音学与声学信号解读
#### 1. 语音韵律特征
语音的韵律特征包含重音、韵律结构和语调等多个方面,这些特征在语言表达和理解中起着重要作用。
- **重音**:在词典中会对重音进行标注,如CMU词典用0表示非重读音节,1表示重读音节。例如“counter”标注为[K AW1 N T ER0] ,“table”标注为[T EY1 B AH0 L]。不同的词汇重音还会影响词义,像名词“content”发音为[K AA1 N T EH0 N T] ,形容词发音则是[K AA0 N T EH1 N T]。此外,非重读元音可能会进一步弱化成为弱化元音,最常见的弱化元音是央元音([ax]),如“parakeet”中的第二个元音 [p ae r ax k iy t] 。不过,并非所有非重读元音都会弱化,像双元音即使在非重读位置也可能保持完整音质。
- **韵律结构**:口语句子具有韵律结构,一些单词自然地组合在一起,而有些单词之间则有明显的停顿或分隔。韵律结构常用韵律短语来描述,一个话语具有韵律短语结构,类似于句法短语结构。例如句子 “I wanted to go to London, but could only get tickets for France” 似乎有两个主要语调短语,边界在逗号处。在第一个语调短语中,还有一些较小的韵律短语边界,将单词分割为 “I wanted | to go | to London” 。现代方法使用序列模型来自动预测韵律边界,这些模型以原始文本或带有特征标注(如解析树)的文本为输入,在每个单词边界处做出停顿或不停顿的决策,并可以在标注了韵律结构的数据上进行训练。
- **语调**:即使两个话语具有相同的重音和韵律短语模式,它们的语调也可能不同。语调是指话语的基频(F0)随时间的升降变化。在英语中,陈述句和一般疑问句的语调差异明显,相同的单词可以用F0最终上升来表示一般疑问句(疑问升调),也可以用F0最终下降来表示陈述句语调(最终降调)。语言广泛利用语调来表达意义,除了一般疑问句的升调,包含用逗号分隔的名词列表的短语,每个名词后通常有一个短暂的升调,称为延续升调。此外,还有表达矛盾和惊讶的典型英语语调。
Pitch accents与语调相关,不同类型的Pitch accents具有不同功能。ToBI(Tone and Break Indices)理论的语调中,每个单词可以与五种类型的Pitch accents之一相关联,每个话语由一系列语调短语组成,每个语调短语以四种边界音调之一结束。以下是ToBI中美国英语语调的Pitch accents和边界音调标签:
| Pitch Accents | Boundary Tones |
| ---- | ---- |
| H*(peak accent) | L - L%(“final fall”:美国英语的“陈述语调”) |
| L*(low accent) | L - H%(continuation rise) |
| L* + H(scooped accent) | H - H%(“question rise”:典型的一般疑问句语调) |
| L + H*(rising peak accent) | H - L%(final level plateau) |
| H +!H*(step down) | |
#### 2. 声学语音学与信号
声学语音学主要研究语音的声学特性和信号处理,包括波形、频率、振幅等方面。
- **波形基础**:声学分析基于正弦和余弦函数,以正弦波为例,其函数表达式为 $y = A * sin(2π ft)$ ,其中 $A$ 为振幅,$f$ 为频率。频率是指波每秒重复的次数,通常用赫兹(Hz)表示,周期 $T$ 是指波完成一个周期所需的时间,$T = 1/f$ 。例如,一个频率为10 Hz的正弦波,其周期为0.1秒。
- **语音声波**:语音识别器的输入和人耳接收到的都是空气压力的复杂变化,这些变化源于说话者,是空气通过声门并从口腔或鼻腔流出的特定方式造成的。我们通过绘制空气压力随时间的
0
0
复制全文
相关推荐









