摘要
近期,卷积神经网络(CNNs)在声音事件检测(SED)中得到了广泛应用。然而,传统的卷积在学习不同声音事件的时频域表示方面存在不足。为了解决这个问题,我们提出了多维频率动态卷积(MFDConv),这是一种新的设计,使卷积核具有沿多个维度的频率自适应动态属性。MFDConv利用一种新颖的多维注意力机制和并行策略来学习互补的频率自适应注意力,这大大增强了卷积核的特征提取能力。此外,为了提高平均教师模型的性能,我们提出了自信平均教师模型,以提高教师产生的伪标签的准确性,并用高置信度标签来训练学生模型。实验结果表明,所提出的方法在DESED真实验证数据集上的PSDS1和PSDS2分别达到了0.470和0.692。
1.引言
声音事件检测(SED)任务旨在检测音频片段中存在的特定声音事件,它已广泛应用于医疗、可穿戴设备和智能安全领域。最近,半监督SED在声音场景与事件检测和分类(DCASE)挑战赛任务4中吸引了越来越多的研究兴趣。
随着深度学习(DL)的发展,SED采纳了各种DL方法并取得了巨大成功。在这些方法中,CNN常用于从音频特征中提取高维表示。然而,基本卷积的特征提取能力是有限的。为了解决这个限制,已经有几次尝试将注意力机制整合到卷积块中,包括SENet、SKNet和CBAM。近期,动态卷积技术因其基于各自注意力动态聚合多个并行卷积核而在优化高效CNN中变得流行。尽管其性能有所提高,动态卷积存在一个关键的限制,即仅有一个维度(卷积核数量)被赋予动态属性,而其他维度被忽视。
此外,这些方法主要是为图像数据设计的,并不完全适用于时频谱图。具体来说,图像在两个维度上都是平移不变的,而时频谱图在频率维度上不是平移不变的。为了解决这个问题,提出了频率动态卷积(FDConv),以释放卷积在频率维度上的平移等变性。FDConv应用频率自适应核来增强卷积的频率依赖性,并在SED任务上取得了有竞争力的结果。
在本文中,我们分别提出了多维频率动态卷积(MFDConv)和自信平均教师(CMT)来应对这两个挑战。首先,为了增强FDConv的特征提取能力,我们将卷积核的频率自适应动态属性扩展到核空间的更多维度。MFDConv利用一种新颖的多维注意力机制和并行策略来学习这些针对卷积