RNNoise 降噪入门

香辣脆脆鱼

已于 2025-07-25 16:49:07 修改

阅读量787

点赞数 17

CC 4.0 BY-SA版权

文章标签：音频循环神经网络

于 2025-07-25 16:45:48 首次发布

RNNoise 是由 Jean-Marc Valin 提出的一个基于循环神经网络（RNN）的实时语音降噪算法。其主要特点如下：

RNNoise 将整个处理流程分为两个主要部分：

三、神经网络架构（GRU Network）

输入特征(42维)
↓
GRU (Gated Recurrent Unit) - 48 单元
↓
GRU (Gated Recurrent Unit) - 96 单元
↓
Dense - 48 单元
↓
输出：频带增益 (22 频带) ∈ [0, 1]

输出是一个长度为 22 的向量，对应于每个 Bark 频带的增益系数（在 [0, 1] 之间），即决定了当前帧在每个频段保留多少能量。

处理流程：

RNNoise 可以在极低资源的设备上运行：

gamma =0.25

gain_loss:

e = pred_gain**gamma - target_gain**gamma
gain_loss = torch.mean((1 + 5. * vad) * mask(gain) * (e ** 2))

非线性损失：

用的是基于 gamma 的非线性差异度量 e = ĝ^γ - g^γ，这是许多语音增强论文中会采用的形式，接近对数域处理（如 γ=0.5 就是平方根）。

加权：

(1 + 5 * vad)：语音段更重要，损失被放大 5 倍。

vad_loss:交叉熵损失

vad_loss = torch.mean(
torch.abs(2 * vad - 1) * (-vad * torch.log(0.01 + pred_vad) - (1 - vad) * torch.log(1.01 - pred_vad))
)

总的损失：

loss = gain_loss + 0.001 * vad_loss

https://github.com/xiph/rnnoise

https://arxiv.org/pdf/1709.08243