利用机器学习方法对SARS-CoV-2进行分类的综述

### 利用机器学习方法对SARS-CoV-2进行分类的综述 #### 1. 引言当前，全球面临的一个严峻问题是新冠病毒的爆发。世界卫生组织（WHO）已将由严重急性呼吸综合征冠状病毒2（SARS-CoV-2）引发的2019冠状病毒病（COVID-19）宣布为全球性流行病。SARS-CoV-2是一种属于冠状病毒科、β冠状病毒属的RNA病毒。冠状病毒（CoVs）根据其抗原和遗传特征，主要分为α-CoV、β-CoV、γ-CoV和δ-CoV四种类型。这些病毒在人体细胞中通过蛋白质生物合成产生四种蛋白质，即膜蛋白、刺突蛋白、核衣壳蛋白和包膜蛋白。细胞是生物体的基本组成单位，基因则是由DNA构成的决定遗传的基本物理单位。DNA序列由腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）四种核苷酸组成。一般来说，人类基因组大小约为700MB，而SARS-CoV-2的基因组大小约为30KB。数学家、医学专家和计算机科学家对SARS-CoV-2对人类基因组的影响进行了建模和模拟，这些成果对疾病的检测和防控起到了重要作用。 COVID-19的诊断可以通过临床程序或计算机化方法，如基因组序列分类来实现。目前主要有三种分类器：非机器学习（Non-ML）分类器、机器学习（ML）分类器和深度学习（DL）分类器。非ML分类器在分类时需要人工干预来确定阈值，如基于规则的分类、静态分类阈值、决策阈值和基于度量的分类等。ML分类器则可以从经验中自动对数据进行分类，无需明确编程，且人工干预较少。 #### 2. 用于COVID-19分类的机器学习分类器近年来，许多研究使用ML方法对SARS-CoV-2进行分类。以下是一些常见的ML技术及其应用： - **预测模型**：Aziz等人开发了一种利用ML方法识别SARS-CoV-2感染者的新方案，对人工神经网络（ANN）、随机森林回归（RFR）和支持向量机（SVM）三种网络进行训练和评估，发现RFR的准确率更高。 - **XGBoost预测技术**：Li Yan等人在2020年提出了基于XGBoost的预后技术，用于预测SARS-CoV-2病例。XGBoost是一种优秀的ML技术，具有高模式分类和特征选择能力，该方案对COVID-19的预测准确率约为90%。 - **风险因素预测模型**：Rustam等人研究了SVM、指数平滑（ES）、线性回归（LR）和最小绝对收缩和选择算子（LASSO）四种模型，以预测COVID-19的风险因素。 - **生存特征评估系统**：Nemati等人提出了一个评估生存特征的系统，用于1182名COVID-19患者，使用了多种ML和统计分析策略来评估患者的出院时间，结果表明梯度提升（GB）患者生存策略优于其他策略。 - **KNN分类方法**：Arslan等人在2021年提出了一种基于KNN的COVID-19识别方法，利用CpG岛相关特征和2019年收集的数据集。该方法通过考虑19种不同分组的距离度量，提高了KNN的效率，准确率达到98.4%。 - **AI评估方法**：Ahmed等人在2022年提出了一种基于AI的方法，用于评估COVID-19及其他病毒（如MERS、SARS和埃博拉）的基因组序列，对COVID-19、SARS和MERS及埃博拉基因组序列的准确率分别为97%、96%和95%。 - **计算机辅助诊断**：Ünal和Dudak在2020年使用计算机辅助诊断技术和ML对COVID-19进行分类，对Kaggle网站上的COVID-19数据集应用了SVM、朴素贝叶斯、KNN和决策树等ML分类技术，其中SVM算法的成功率达到100%，分类准确率最高。 |作者及年份|方法|数据集|发现|研究差距| | ---- | ---- | ---- | ---- | ---- | |Li Yan等2020年|XGBoost - 决策树|同济医院患者电子记录|预测准确率高达90%|仅考虑了现有300个特征中的3个特征| |Ünal和Dudak 2020年|SVM、决策树、KNN、随机森林|COVID-19 Kaggle数据集|SVM分类器具有高分类准确率|除Kaggle数据集外，其他数据集分类错误| |Xiang等2020年|肝功能测试、肾功能测试|28例COVID-19临床样本|有助于检测COVID-19的存在|样本有限，无法对病毒变体进行分类| |Rustam等2020年|LR、SVM、ES|GitHub仓库、约翰霍普金斯大学数据|LR和LASSO在确诊病例中表现良好|需用修订后的数据集研究预测方法| |Nemati等2020年|GB、快速SVM和快速核SVM|1182名COVID-19患者实时数据|GB提供更好的预测准确率|设计的ML方法预测不准确| |Aziz Alotaibi等2021年|ANN、SVM、RFR|北京大学S1数据|最小化成本函数，误差率低|对新基因序列过拟合，方差高| |Arslan等2021年|KNN分类|2019nCoVR仓库|准确率高达98.4%|特征较少，无法正确分类新变体| |Naeem等2021年|KNN|NCBI GenBank|分类准确率高，误差率低|无法进

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

利用机器学习方法对SARS-CoV-2进行分类的综述

相关推荐

专栏目录

利用机器学习方法对SARS-CoV-2进行分类的综述

相关推荐

SARS-CoV-2-analysis-with-Biopython:Jupyter笔记本，有关使用Biopython模块进行SARS-CoV-2 DNA分析的信息。 国家生物技术信息中心的数据

SARS-CoV-2:每日分析基因组SARS-CoV-2数据

fection_source：瑞士各州的SARS-CoV-2感染源数据

基于机器学习方法的SARS-CoV-2分类综述

利用美国各州网络传播SARS-CoV-2_SARS-CoV-2 Dissemination using a Network of

SARS-CoV-2-Variant-Browser:这是SARS-CoV-2变体浏览器Web应用程序工具

SARS-CoV-2_Analysis:用于大规模SARS-CoV-2分析的Snakemake工作流程

人工智能与机器学习在抗击SARS-CoV-2中的应用探索

SARS-CoV-2-Data-Analysis：快速的Jupyter Notebook分析和可视化与SARS-CoV-2相关的序列

SARS-CoV-2_blacklist_code:Freeman等人将其用于SARS-CoV-2黑名单手稿的代码

前端-vue工程化-Pinia的使用

某中学网络结构化布线系统方案.doc

专栏目录

最新推荐

数据在不同部门的应用与挑战及后续提升建议

数据可视化：静态与交互式的优劣及团队模式分析

利用GARCH模型变体进行股票市场预测中的情感分析实现

软件定义网络的数据可视化与负载均衡实验

打造与分享Excel仪表盘：设计、保护与部署全攻略

数据科学家绩效评估方法解析

Rasa开发：交互式学习、调试、优化与社区生态

数据分析与分层模型解读

数据可视化：工具与Python库的综合指南

基于文本的关系提取与知识图谱构建

SARS-CoV-2-analysis-with-Biopython:Jupyter笔记本，有关使用Biopython模块进行SARS-CoV-2 DNA分析的信息。国家生物技术信息中心的数据