声源分离算法性能评估指标SIR、SDR、SAR

qq_37215867

已于 2022-06-23 12:41:11 修改

阅读量7k

点赞数

CC 4.0 BY-SA版权

分类专栏：语音信号处理文章标签：人工智能机器学习 python 信号处理

于 2022-06-22 23:38:35 首次发布

本文链接：https://blog.csdn.net/qq_37215867/article/details/125417044

本文介绍了声源分离算法的重要性能评估指标——源失真比（SDR）、源干扰比（SIR）和源伪影比（SAR）。这些指标用于量化算法在语音降噪、去混响等任务中的表现。通过计算估计源信号与真实源信号之间的差异，评估算法的效果。详细讨论了各个分量的计算方法，并提供了参考文献。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原理介绍

声源分离算法用于从混合的观测声信号中分离出一个或者多个期望源信号，如语音降噪、去混响、音乐信号分离等。评价一个声源分离算法性能的好坏，就是要衡量算法所提取的源信号和真实源信号之间的差异。目前最常用的评价指标是Emmanuel[1]等提出的源失真比（source-to-distortion ratio, SDR）、源干扰比（source-to-interference ratio, SIR）和源伪影比（source-to-artifact ratio, SAR）。下面我们来介绍一下指标计算的原理。

假设 $s_{j}(t)$ （ $\le j \le n$ ）为第 $j$ 个声源信号， $x_{i}(t)$ （ $1≤i≤m1\le i \le m$ ）为第 $i$ 个麦克风采集的观测信号， $aij(τ)a_{ij}(\tau)$ 为声源与麦克风之间的声传播路径滤波器，则声源信号的混合过程可以表示为
$\sum_{j=1}^{n} \sum_{\tau = 0}^{+ \infty } a_{ij}(\tau)s_{j}(t-\tau)+n_{i}(t)$ 其中， $n_{i}(t)$ 是加性的传感器噪声。表示为矩阵形式为
$\mathbf{x}=\mathbf{A}\star \mathbf{s}+\mathbf{n}$ 其中， $⋆\star$ 为卷积符号，粗体字母表示矩阵，如 $x=[x(0),x(1),...,x(T−1)]\mathbf{x}=\left [ \mathbf{x}(0), \mathbf{x}(1),...,\mathbf{x}(T-1) \right ]$ 。方便起见，将由 $s_{j}(t)$ 组成的向量简记为 $s_{j}$ 。

我们把从观测信号中估计的源信号表示为 $s^j\hat {s}_{j}$ ，它可以分解为以下四个分量
$s^j=starget+einterf+enoise+eartif \hat {s}_{j}=s_{target}+e_{interf}+e_{noise}+e_{artif}$ 这四部分依次代表着 $s^j\hat {s}_{j}$ 中有关真实源信号 $s_{j}$ 的成分、来自其他源信号 $(sj′)j′≠j(s_{j'})_{j' \ne j}$