文章目录
引言
- 这篇文章是ICASSP2023年的grand challenge的挑战赛的说明文章,包括了baseline的具体结构,需要好好读一下。
正文
Abstract
-
SPGC比赛的目标是解决AD的自动预测问题,参赛者需要使用机器学习的方法,基于自发语音去检测AD患者。难点在于,参赛者使用英语数据集进行训练,然后泛化到希腊语上进行检测。
-
问题核心
- 找到能够实现夸语言检测的语音中的音频特征。
-
我们的baseline是基于传统的机器学习,使用的是音频特征的Active data representation。AD检测的准确率是73.91%,认知分数预测的RMSE是4.95
Introduction
-
目前有很多人在做这个AD检测,但是没人做过跨语言的AD检测,本文的目的是找到那些能够跨越语言模态的音频或者语义特征,来检测AD。借此来激发人们对于AD检测的关注。
-
参赛者在英文数据集上进行训练,然后将模型泛化到希腊语数据集上。
The Prediction Task
ADReSS-M挑战主要有两个任务,分别是分类任务和回归任务。
- 分类任务:区分健康人的语音和AD/MCI患者的语音。
- 回归任务:基于语音,来预测说话者的最小精神状态测试分数(MMSE)
会提供一个训练集,然后在论文截止提交之前会发布一个测试来测试分数。
2.1 The data sets数据集
-
SPCG的数据集通过DementiaBank可以获得,数据集是有自发语音样本构成,每段音频的具体内容是病人在做认知障碍的测试中,对测试图片的描述。这个测试图片是Boston Diagnostic Aphasia Examination测试集中的厨房小偷测试集。
-
受试者需要说的是英语,然后测试集是使用希腊语的不同图片的描述语音。
-
参赛者只能获取训练集,也就是英语数据集,还有八个希腊语的样例。
-
英语样本和希腊语样本的语音内容不一样:
- 英语样本描述的内容是cookie theft,然后希腊语的内容是一只狮子和它的幼崽在沙漠中躺着吃东西。
对训练集做了数据的平衡处理
- 为了消除年龄和性别可能带来的混杂和偏见,研究中使用的训练数据集进行了平衡处理。研究还采用了倾向得分匹配方法,因为教育水平与年龄和性别相关,因此不需要对教育进行调整,这被认为是一种可接受的调整方法。关于这种调整方法的更多信息可以在文献[3]的第348-352页找到。数据集根据定义为患有阿尔茨海默病(AD)的概率的分数进行了匹配,这些分数通过逻辑回归估算,并且根据年龄和性别等协变量选择了匹配实例。所有协变量的标准化均值差异都低于0.1,所有协变量的平方项和两变量之间的二元互动的标准化均值差异都低于0.15,这表明对这些协变量的平衡是适当的。
2.2 Evaluation测试
- 分类任务是通过准确率进行测试的,更加具体的就是敏感度还有F1分数
- 回归任务而言,指标是通过相关系数还有均方根误差进行衡量的。
- 最终的排名是AD捡侧任务的准确性,MMSE回归任务的RMSE值
Baseline模型
-
首先,作者们使用了ffmpeg的EBU R128扫描器滤波器来标准化音频文件的音量。然后,他们对音频应用了1秒钟的滑动窗口(没有重叠),并在这些帧上提取了eGeMAPS特征。eGeMAPS是一组用于检测声音生产中生理变化的基本声学特征集合,包括F0(基频)半音、响度、频谱流、MFCC(梅尔频率倒谱系数)、抖动、闪变、F1、F2、F3、alpha比、Hambarg指数以及斜率V0特征,以及它们最常见的统计功能,每帧总共88个特征。
-
有了eGeMAPS特征之后,研究者应用了主动数据表征方法(ADR)来为每个音频录音生成帧级别的声学表征。ADR方法之前已用于生成大规模时间序列数据表征,并且利用自组织映射对原始声学特征进行聚类,然后在这些聚类上计算二阶特征以提取新特征。这个方法是完全自动的,不需要提供任何语音分段或分离信息给算法。
-
在任务1中,研究者使用朴素贝叶斯分类器与核平滑估计。ADR用于特征提取,使用了一个网格搜索优化。他们得到了在样本和测试数据上分别为75.00%和73.91%的准确率。
-
在进行MMSE回归任务(任务2)时,使用了带有径向基函数(RBF)核的支持向量机(SVM)模型,并通过网格搜索优化了带有盒约束为1的ADR特征提取。这个模型在样本和测试数据上分别得到了3.887和4.955的均方根误差(RMSE),相关系数(r)分别为0.273和0.348。每次录音的ADR、年龄和性别特征为25+2,训练音频的特征比率也是29:237。在测试集上,特异性为79.2%,精确度为75%,灵敏度为68.2%,F1分数为71.4%。
-
这些结果展示了基线模型在自发语音分析任务中的性能,特别是在使用声学特征来评估和监测认知健康状态时。
Conclusion结论
- 自发语音分析能够对认知障碍,进行纵向和非侵入性的有效检测。自发语音能够对AD和认知障碍进行有效检测,替代当前神经心理学和临床评估方法。
- 我们设置的这个多语言数据集,是为了跨语言的通用特征,提高模型的泛化能力,进一步提高模型在不同语言的适用性。
- 通过控制性别、年龄等不同特征的偏差,这里提供了一个更加准去的数据集,介词提供一个更加准确的评估基准。
- 最后,研究者希望该数据集能成为未来进行多语言AD评估研究的基准,也就是说,它能够帮助其他研究者评估和改进他们的AD检测方法,并应用于多种语言环境
总结
- 这里是用的是传统的机器学习,然后就用了低频的声音特真,效果比大部分使用复杂机器学习的方法还要好,不得不说很厉害的。