人工神经网络在语音频谱参数映射中的性能评估
立即解锁
发布时间: 2025-08-17 01:31:41 阅读量: 2 订阅数: 4 

### 人工神经网络在语音频谱参数映射中的性能评估
#### 上半部分
在过去几年里,基于深度学习的技术在语音降噪领域占据了主导地位,并且常常超越传统信号处理和基于统计的算法。因此,为了实现语音增强,人们考虑了许多不同类型的深度神经网络(DNN)结构,如经典的多层感知器(MLP)和循环神经网络(RNN)。然而,对于在嘈杂条件下进行语音增强的不同DNN结构,系统的比较和评估工作做得还很少。
##### 1. 相关工作
在过去十年中,使用DNN增强受噪声或混响影响的语音信号一直是研究的重要课题。通常,最常见的实现方式是增强频谱特征,如MFCC,这些特征常被用作信号分类的参数。
许多文献报道,DNN方法在增强语音方面取得了成功,优于基于信号处理的经典方法,在处理混响语音方面也有不错的表现。神经网络近似函数的能力(如噪声和干净语音之间的映射)决定了其表达能力。
重要的通用近似定理表明,具有合适激活函数的深度为2的网络可以在紧凑域上以任意期望的精度近似任何连续函数。然而,关于神经网络执行特定任务时各层的大小,目前还没有可用的信息。
除了更传统的MLP,一些RNN,如长短期记忆网络(LSTM)和双向长短期记忆网络(BLSTM),也被用于语音增强任务。尽管LSTM在这项任务中优于其他深度网络,但关于训练条件(如网络中的单元数量或层数)的系统比较在文献中并不常见。
使用更多单元或层进行RNN实验的一个已知限制是高计算成本,这也是之前文献中限制该任务进一步实验的主要原因。寻找更好的架构(就单元数量和隐藏层而言)的问题,已经通过生物启发算法(如遗传算法)来解决。但考虑到最近RNN模型的计算成本,目前还无法在寻找合适的网络架构时实施此类算法,因为每次对循环网络进行更改都需要数小时来评估结果。
在本文中,我们考虑应用三种人工神经网络(MLP、LSTM和BLSTM)进行语音增强。我们的主要动机是为该任务的神经网络知识做出贡献,并通过关于更合适的神经网络架构的客观知识来指导未来的研究。
##### 2. 背景
- **问题陈述**:给定一个前馈神经网络θ,它由计算单元层组成,存在一个唯一的函数$f_θ: R^d → R$,该函数取决于θ的特定架构和配置。如果L表示网络的内部(隐藏)层数,N表示每层中的单元数(假设每层数量恒定),那么找到满足特定任务的特定θ的目标可以表示为:
$\min_{\tilde{f} \in F(N,L)} ||f - \tilde{f}|| \leq \epsilon$
具体来说,我们感兴趣的是为给定的固定L值找到合适的N作为下限,同时也关注找到L的下限值。在这项工作中,我们在三种前馈和循环神经网络中探索不同L情况下的多个N值,目标是在高效且可管理的时间内为降噪任务找到对f的良好近似。
- **使用人工神经网络增强语音**:训练人工神经网络进行语音增强的想法源于其首次应用,即使用单层网络对声学系数进行建模。由于计算机能力有限和相关算法未开发完善,直到最近十年才能够处理大量数据或引入隐藏层。在网络中,输入向量s(包含嘈杂语音信息)通过映射函数f转换为隐藏层中的表示h,然后在网络输出端将隐藏表示转换回输入
0
0
复制全文
相关推荐









