基于机器学习方法的SARS-CoV-2分类综述
立即解锁
发布时间: 2025-08-29 12:09:41 阅读量: 10 订阅数: 32 AIGC 

### 基于机器学习方法的SARS-CoV-2分类综述
#### 1. 引言
当前,全球面临的严峻问题之一便是新冠病毒的爆发。世界卫生组织已将由SARS-CoV-2病毒引发的2019冠状病毒病(COVID - 19)宣布为大流行病。SARS-CoV-2是一种属于冠状病毒科、β冠状病毒属的RNA病毒。冠状病毒根据其抗原和遗传特征,主要分为α - CoVs、β - CoVs、γ - CoVs和δ - CoVs四种类型。这些病毒通过蛋白质生物合成在人体细胞中产生四种蛋白质,即膜蛋白、刺突蛋白、核衣壳蛋白和包膜蛋白。
细胞是生物体的基本组成单位,基因则是由DNA构成的决定遗传的基本物理单位。DNA序列由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)表示的核苷酸组成。一般来说,人类基因组大小约为700MB,而SARS-CoV-2的基因组大小约为30KB。数学家、医学专家和计算机科学家对SARS-CoV-2对人类基因组的影响进行了建模和模拟,这些成果对疾病的检测和防控起到了重要作用。
COVID - 19的诊断可以通过临床程序或计算机方法,如基因组序列分类来实现。目前主要有三种分类器:非机器学习(Non - ML)分类器、机器学习(ML)分类器和深度学习(DL)分类器。非ML分类器在分类时需要人工干预来确定阈值,常见的非ML分类技术包括基于规则的分类、静态分类阈值、决策阈值、基于度量的分类等。ML分类器则能从经验中自动对数据进行分类,无需明确编程,且人工干预较少。
#### 2. 用于COVID - 19分类的机器学习分类器
##### 2.1 机器学习技术
机器学习能够让计算机自主执行任务,是一种数据分析技术,通过创建和拟合模型,使计算机能够从重复中“学习”并预测未来。以下是一些使用机器学习方法对SARS-CoV-2进行分类的研究:
- **XGBoost决策树**:Li Yan等人在2020年提出了基于XGBoost的预后技术,用于预测SARS-CoV-2病例。该技术具有较高的模式分类和特征选择能力,预测准确率高达90%,但仅考虑了现有300个特征中的3个。
- **多种模型对比**:Ünal和Dudak在2020年对COVID - 19的Kaggle数据集使用了SVM、决策树、KNN和随机森林等ML分类技术。其中,SVM算法的成功率达到100%,分类准确率最高,但除Kaggle数据集外,其他数据分类不准确。
- **KNN分类**:Arslan等人在2021年提出了一种基于KNN的COVID - 19识别方法,利用2019年收集的数据集,该方法的准确率达到98.4%,但由于特征较少,无法正确分类新的病毒变种。
以下是部分机器学习方法的总结:
|作者及年份|方法|数据集|发现|研究差距|
| ---- | ---- | ---- | ---- | ---- |
|Li Yan等2020|XGBoost - 决策树|同济医院患者电子记录|预测准确率达90%|仅考虑3个特征|
|Ünal和Dudak 2020|SVM、决策树、KNN、随机森林|COVID - 19 Kaggle数据集|SVM分类准确率高|除Kaggle数据集外分类错误|
|Xiang等2020|肝功能测试、肾功能测试|28例COVID - 19临床样本|有助于检测COVID - 19存在|样本有限,无法区分变种|
|Rustam等2020|LR、SVM、ES|GitHub仓库、约翰霍普金斯大学数据|LR和LASSO在确诊病例中表现良好|需用修订数据集研究预测方法|
|Nemati等2020|GB、Fast SVM、Fast Kernel SVM|1182例COVID - 19患者实时数据|GB预测准确率高|ML方法预测不准确|
|Aziz Alotaibi等2021|ANN、SVM、RFR|北京大学S1数据|最小化成本函数,误差率低|对新基因序列过拟合|
|Arslan等2021|KNN分类|2019nCoVR仓库|准确率达98.4%|因特征少,新变种分类错误|
|Naeem等2021|KNN|NCBI GenBank|分类准确率高,误差率低|无法准确预测|
|Arslan 2021|KNN分类器|CpG岛特征 - 2019nCoVR仓库|消除性能开销|需提高分类准确率|
|Ahmed等2022|SVM|GenBank NCBI - COVID - 19数据集|分类效果好,COVID
0
0
复制全文
相关推荐






