【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement

简介: 介绍了一种用于语音增强的复数深度神经网络(CDNN),它通过复数值的短时傅立叶变换(STFT)映射到干净的STFT,并提出了参数整流线性单位(PReLU)的复数扩展,实验结果表明CDNN在语音增强方面相对于实值深层神经网络(DNN)具有更好的性能。

文献来源: ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

1 简介和创新点

(1)简介
在语音增强领域提出了复数神经网络CDNN将复数值的有噪短时傅立叶变换(STFT)映射到干净的短时傅立叶变换。
提出了参数整流线性单位(PReLU)非线性的复数值扩展,这有助于改善CDNN的性能。
实验结果表明,与实值深层神经网络(DNN)相比,使用所提出的非线性性的CDNN可以提供相似或更好的增强结果
(2)创新点
使用使用实值反向传播训练的CDNN,而先前的研究探索了复数的反向传播
在模型中利用了以前未建议的复杂批处理规范化
提出了参数整流线性单位(PReLU)非线性的复数值激活函数,这有助于改善CDNN的性能。

2 模型

1.png

提出的全连接复数神经网络。图中的W表示复数的初始化权重,从Input输入两个向量与权重矩阵进行相乘,然后经过Batch-Normalization,再经过CPRcLU激活构成一个隐藏层。重复三个隐藏层。
提出的CPRcLu激活函数公式如下

2.png

其中αI 和αR是可训练参数
本文中还列出其他的复数激活函数,比如ModRelu、ZreLu、CReLu、zPReLu、z3PReLu,大部分激活函数最初都在《Deep Complex Network》文献中提出。

3 模型参数

数据集:TIMIT
训练集信噪比范围:【-5,5】
CDNN: 724 个复数隐藏单元
声音重采样频率:16KHZ
Batch-size:4096
优化器:Adam
学习率:0.0002
Dorpout率:0.2

4 实验结果

CPReLu激活函数效果最佳。CDNN相对于DNN效果最佳

3.png

5 疑问和思考

(1)该模型无源码,但是Batch-Normalization和激活函数是使用《Deep Complex Network》中的源码直接调用的。模型部分介绍不清楚。就连全脸层中有使用dropout层都没有在模型部分介绍,在实验部分接受到的。
(2)全连接层的每层神经元个数没有展示,无法复现。

(3)《DeepComplex Network》复数神经网络的源码,可调用该源码封装的复数神经网络中的隐藏层的各个方法

目录
相关文章
|
数据可视化 算法 Go
【博士每天一篇文献-实验】Exploring the Morphospace of Communication Efficiency in Complex Networks
这篇论文探讨了复杂网络中不同拓扑结构下的通信效率,并使用"效率形态空间"来分析网络拓扑与效率度量之间的关系,得出结论表明通信效率与网络结构紧密相关。
92 3
|
机器学习/深度学习 数据挖掘
【博士每天一篇文献-综述】Communication dynamics in complex brain networks
本文综述了复杂脑网络中的通信动态,提出了一个将通信动态视为结构连接和功能连接之间必要联系的概念框架,探讨了结构网络的局部和全局拓扑属性如何支持网络通信模式,以及网络拓扑与动态模型之间的相互作用如何提供对大脑信息转换和处理机制的额外洞察。
117 2
【博士每天一篇文献-综述】Communication dynamics in complex brain networks
|
机器学习/深度学习 PyTorch 算法框架/工具
【文献学习】Phase-Aware Speech Enhancement with Deep Complex U-Net
文章介绍了Deep Complex U-Net模型,用于复数值的语音增强,提出了新的极坐标掩码方法和wSDR损失函数,并通过多种评估指标验证了其性能。
174 1
|
机器学习/深度学习 网络协议 PyTorch
【文献学习】DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
本文介绍了一种新的深度复数卷积递归网络(DCCRN),用于处理语音增强问题,特别是针对低模型复杂度的实时处理。
582 5
|
机器学习/深度学习 算法 TensorFlow
【文献学习】Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction
本文探讨了使用复数卷积神经网络进行MRI图像重建的方法,强调了复数网络在保留相位信息和减少参数数量方面的优势,并通过实验分析了不同的复数激活函数、网络宽度、深度以及结构对模型性能的影响,得出复数模型在MRI重建任务中相对于实数模型具有更优性能的结论。
137 0
【文献学习】Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction
|
机器学习/深度学习 存储 算法
【文献学习】Deep Complex Networks
本文深入探讨了深度复数网络(Deep Complex Networks),包括其创新点、复数的优势、作者贡献,以及深度复数技术的具体应用,如复数卷积、激活函数、Batch-Normalization、权重初始化和卷积残差网络,并提出了对文中一些复杂概念的疑问和反思。
333 0
|
数据可视化 Go 数据库
WEGO使用—在线GO功能注释
WEGO是华大基因公司的一个在线GO注释的网站,根据网站的介绍:WEGO(网络基因本体注释图)是一个简单但有用的工具,用于可视化,比较和绘制基因本体注释结果。随着围棋词汇越来越流行,WEGO在许多研究中被广泛采用和使用,最新一次的更新是在2018年。
1012 0
|
10月前
|
运维 负载均衡 应用服务中间件
自动化运维:使用Ansible进行服务器配置管理
【9月更文挑战第34天】在现代IT运维工作中,自动化已成为提升效率、减少错误的关键。本文将介绍如何使用Ansible这一强大的自动化工具来简化和加速服务器的配置管理工作。我们将通过实际案例展示如何利用Ansible的Playbooks来自动化常见任务,并讨论其对提高运维团队工作效率的影响。
|
6月前
|
机器学习/深度学习 人工智能 并行计算
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
294 1
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
|
9月前
|
SQL 监控 关系型数据库
SQL语句当前及历史信息查询-performance schema的使用
本文介绍了如何使用MySQL的Performance Schema来获取SQL语句的当前和历史执行信息。Performance Schema默认在MySQL 8.0中启用,可以通过查询相关表来获取详细的SQL执行信息,包括当前执行的SQL、历史执行记录和统计汇总信息,从而快速定位和解决性能瓶颈。
472 1