人工神经网络在语音频谱参数映射中的性能评估

### 人工神经网络在语音频谱参数映射中的性能评估 #### 上半部分在过去几年里，基于深度学习的技术在语音降噪领域占据了主导地位，并且常常超越传统信号处理和基于统计的算法。因此，为了实现语音增强，人们考虑了许多不同类型的深度神经网络（DNN）结构，如经典的多层感知器（MLP）和循环神经网络（RNN）。然而，对于在嘈杂条件下进行语音增强的不同DNN结构，系统的比较和评估工作做得还很少。 ##### 1. 相关工作在过去十年中，使用DNN增强受噪声或混响影响的语音信号一直是研究的重要课题。通常，最常见的实现方式是增强频谱特征，如MFCC，这些特征常被用作信号分类的参数。许多文献报道，DNN方法在增强语音方面取得了成功，优于基于信号处理的经典方法，在处理混响语音方面也有不错的表现。神经网络近似函数的能力（如噪声和干净语音之间的映射）决定了其表达能力。重要的通用近似定理表明，具有合适激活函数的深度为2的网络可以在紧凑域上以任意期望的精度近似任何连续函数。然而，关于神经网络执行特定任务时各层的大小，目前还没有可用的信息。除了更传统的MLP，一些RNN，如长短期记忆网络（LSTM）和双向长短期记忆网络（BLSTM），也被用于语音增强任务。尽管LSTM在这项任务中优于其他深度网络，但关于训练条件（如网络中的单元数量或层数）的系统比较在文献中并不常见。使用更多单元或层进行RNN实验的一个已知限制是高计算成本，这也是之前文献中限制该任务进一步实验的主要原因。寻找更好的架构（就单元数量和隐藏层而言）的问题，已经通过生物启发算法（如遗传算法）来解决。但考虑到最近RNN模型的计算成本，目前还无法在寻找合适的网络架构时实施此类算法，因为每次对循环网络进行更改都需要数小时来评估结果。在本文中，我们考虑应用三种人工神经网络（MLP、LSTM和BLSTM）进行语音增强。我们的主要动机是为该任务的神经网络知识做出贡献，并通过关于更合适的神经网络架构的客观知识来指导未来的研究。 ##### 2. 背景 - **问题陈述**：给定一个前馈神经网络θ，它由计算单元层组成，存在一个唯一的函数$f_θ: R^d → R$，该函数取决于θ的特定架构和配置。如果L表示网络的内部（隐藏）层数，N表示每层中的单元数（假设每层数量恒定），那么找到满足特定任务的特定θ的目标可以表示为： $\min_{\tilde{f} \in F(N,L)} ||f - \tilde{f}|| \leq \epsilon$ 具体来说，我们感兴趣的是为给定的固定L值找到合适的N作为下限，同时也关注找到L的下限值。在这项工作中，我们在三种前馈和循环神经网络中探索不同L情况下的多个N值，目标是在高效且可管理的时间内为降噪任务找到对f的良好近似。 - **使用人工神经网络增强语音**：训练人工神经网络进行语音增强的想法源于其首次应用，即使用单层网络对声学系数进行建模。由于计算机能力有限和相关算法未开发完善，直到最近十年才能够处理大量数据或引入隐藏层。在网络中，输入向量s（包含嘈杂语音信息）通过映射函数f转换为隐藏层中的表示h，然后在网络输出端将隐藏表示转换回输入

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

人工神经网络在语音频谱参数映射中的性能评估

相关推荐

专栏目录

人工神经网络在语音频谱参数映射中的性能评估

相关推荐

基于神经网络端到端的中文语音识别项目.zip

ANN.rar_ANN_ANN 语音识别_ANN语音识别_ann speech_神经网络 语音识别

利用深度残差神经网络改进了最先进的鸟类物种分类器

基于神经网络的语音识别

BP神经网络实现语音去噪

【语音识别】基于BP神经网络实现语音情感识别Matlab源码.zip

BP神经网络语音识别代码源码.zip

基于深度神经网络的双声道混响语音分离

MATLAB教程：MFCC与人工神经网络在语音识别中的应用仿真

BP神经网络在语音信号分类中的应用研究

三国演义、三国时期蜀国的巅峰实力

浅析大数据时代民办高校大学英语评价体系的构建.docx

专栏目录

最新推荐

C++网络编程进阶：内存管理和对象池设计

视频编码101

【Coze混剪多语言支持】：制作国际化带货视频的挑战与对策

【AI智能体隐私保护】：在数据处理中保护用户隐私

一键安装Visual C++运行库：错误处理与常见问题的权威解析（专家指南）

Coze工作流的用户权限管理：掌握访问控制的艺术

【高级转场】：coze工作流技术，情感片段连接的桥梁

【架构模式优选】：设计高效学生成绩管理系统的模式选择

CMake与动态链接库（DLL_SO_DYLIB）：构建和管理的终极指南

【数据清洗流程】：Kaggle竞赛中的高效数据处理方法

ANN.rar_ANN_ANN 语音识别_ANN语音识别_ann speech_神经网络语音识别