A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

最新推荐文章于 2024-08-26 07:16:56 发布

weixin_44223902

最新推荐文章于 2024-08-26 07:16:56 发布

阅读量1.7k

点赞数 2

CC 4.0 BY-SA版权

文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_44223902/article/details/109687449

该文提出了一种卷积循环神经网络(CRN)用于实时语音增强，结合了因果卷积和LSTM，实现了噪声和说话人无关的处理。实验表明，CRN在STOI和PESQ上优于LSTM基线，并且参数更少，适用于实时应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

文章：A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement
作者：Ke Tan, DeLiang Wang

ABSTRACT

现实生活中许多语音增强的应用都需要实时处理，最好没有延迟或者低延迟，例如助听器和人工耳蜗。本文提出了CRN的网络结构实现单通道语音增强。把CED和LSTM结合到CRN架构中，形成一个实时处理的因果系统。而且，所提出的模型中噪声与说话人无关，即噪声类型和说话人在训练集和测试集中可以是不同的，实验表明CRN比现存的LSTM模型表现出更好的PESQ和STOI。而且，CRN所需的参数更少。
关键字：噪声和说话人无关的语音增强。实时应用，CED，LSTM,CRN

Introduction

语音分离旨在将目标说话人从背景干扰噪声中分离出来，包括非语音噪声，干扰语音和房间混响。语音增强涉及到分离语音和非语音噪声，生活中有各种各样的应用，例如：鲁棒性自动语音识别和移动设备语音交流。这些都需要实时处理，换句话说，语音增强应该被表现为低计算复杂度，并且提供瞬时输出。
文章中，我们集中于可运行在实时应用中的单通道语音增强，例如，在数字助听器中，对于听的人来说，3毫秒的延迟就很明显，大于10毫秒的延迟则令人讨厌。对于这些应用，需要一个没有未来信息的因果语音增强系统。
受CASA中时频掩蔽的启发，近年来语音分离被作为监督学习任务进行研究，使用DNN来学习噪声特征到时频掩蔽的mapping。IBM是第一个在监督语音分离中使用的目标，他把时频单元归为语音域或噪声域。最近提出的训练目标包括IRM，和基于mapping的特征，对应于目标语音