利用机器学习方法对SARS-CoV-2进行分类的综述
立即解锁
发布时间: 2025-08-29 12:08:39 阅读量: 10 订阅数: 34 AIGC 

### 利用机器学习方法对SARS-CoV-2进行分类的综述
#### 1. 引言
当前,全球面临的一个严峻问题是新冠病毒的爆发。世界卫生组织(WHO)已将由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)引发的2019冠状病毒病(COVID-19)宣布为全球性流行病。SARS-CoV-2是一种属于冠状病毒科、β冠状病毒属的RNA病毒。冠状病毒(CoVs)根据其抗原和遗传特征,主要分为α-CoV、β-CoV、γ-CoV和δ-CoV四种类型。这些病毒在人体细胞中通过蛋白质生物合成产生四种蛋白质,即膜蛋白、刺突蛋白、核衣壳蛋白和包膜蛋白。
细胞是生物体的基本组成单位,基因则是由DNA构成的决定遗传的基本物理单位。DNA序列由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种核苷酸组成。一般来说,人类基因组大小约为700MB,而SARS-CoV-2的基因组大小约为30KB。数学家、医学专家和计算机科学家对SARS-CoV-2对人类基因组的影响进行了建模和模拟,这些成果对疾病的检测和防控起到了重要作用。
COVID-19的诊断可以通过临床程序或计算机化方法,如基因组序列分类来实现。目前主要有三种分类器:非机器学习(Non-ML)分类器、机器学习(ML)分类器和深度学习(DL)分类器。非ML分类器在分类时需要人工干预来确定阈值,如基于规则的分类、静态分类阈值、决策阈值和基于度量的分类等。ML分类器则可以从经验中自动对数据进行分类,无需明确编程,且人工干预较少。
#### 2. 用于COVID-19分类的机器学习分类器
近年来,许多研究使用ML方法对SARS-CoV-2进行分类。以下是一些常见的ML技术及其应用:
- **预测模型**:Aziz等人开发了一种利用ML方法识别SARS-CoV-2感染者的新方案,对人工神经网络(ANN)、随机森林回归(RFR)和支持向量机(SVM)三种网络进行训练和评估,发现RFR的准确率更高。
- **XGBoost预测技术**:Li Yan等人在2020年提出了基于XGBoost的预后技术,用于预测SARS-CoV-2病例。XGBoost是一种优秀的ML技术,具有高模式分类和特征选择能力,该方案对COVID-19的预测准确率约为90%。
- **风险因素预测模型**:Rustam等人研究了SVM、指数平滑(ES)、线性回归(LR)和最小绝对收缩和选择算子(LASSO)四种模型,以预测COVID-19的风险因素。
- **生存特征评估系统**:Nemati等人提出了一个评估生存特征的系统,用于1182名COVID-19患者,使用了多种ML和统计分析策略来评估患者的出院时间,结果表明梯度提升(GB)患者生存策略优于其他策略。
- **KNN分类方法**:Arslan等人在2021年提出了一种基于KNN的COVID-19识别方法,利用CpG岛相关特征和2019年收集的数据集。该方法通过考虑19种不同分组的距离度量,提高了KNN的效率,准确率达到98.4%。
- **AI评估方法**:Ahmed等人在2022年提出了一种基于AI的方法,用于评估COVID-19及其他病毒(如MERS、SARS和埃博拉)的基因组序列,对COVID-19、SARS和MERS及埃博拉基因组序列的准确率分别为97%、96%和95%。
- **计算机辅助诊断**:Ünal和Dudak在2020年使用计算机辅助诊断技术和ML对COVID-19进行分类,对Kaggle网站上的COVID-19数据集应用了SVM、朴素贝叶斯、KNN和决策树等ML分类技术,其中SVM算法的成功率达到100%,分类准确率最高。
|作者及年份|方法|数据集|发现|研究差距|
| ---- | ---- | ---- | ---- | ---- |
|Li Yan等2020年|XGBoost - 决策树|同济医院患者电子记录|预测准确率高达90%|仅考虑了现有300个特征中的3个特征|
|Ünal和Dudak 2020年|SVM、决策树、KNN、随机森林|COVID-19 Kaggle数据集|SVM分类器具有高分类准确率|除Kaggle数据集外,其他数据集分类错误|
|Xiang等2020年|肝功能测试、肾功能测试|28例COVID-19临床样本|有助于检测COVID-19的存在|样本有限,无法对病毒变体进行分类|
|Rustam等2020年|LR、SVM、ES|GitHub仓库、约翰霍普金斯大学数据|LR和LASSO在确诊病例中表现良好|需用修订后的数据集研究预测方法|
|Nemati等2020年|GB、快速SVM和快速核SVM|1182名COVID-19患者实时数据|GB提供更好的预测准确率|设计的ML方法预测不准确|
|Aziz Alotaibi等2021年|ANN、SVM、RFR|北京大学S1数据|最小化成本函数,误差率低|对新基因序列过拟合,方差高|
|Arslan等2021年|KNN分类|2019nCoVR仓库|准确率高达98.4%|特征较少,无法正确分类新变体|
|Naeem等2021年|KNN|NCBI GenBank|分类准确率高,误差率低|无法进
0
0
复制全文
相关推荐










