新冠病毒RNA序列预测与基因组学中的机器学习应用

### 新冠病毒RNA序列预测与基因组学中的机器学习应用 #### 1. 模型中引入Transformer架构 Transformer是一种使用编码器和解码器将一个序列转换为另一个序列的架构，与LSTM类似。但与之前提到的和已在使用的序列到序列模型不同，它不包含任何循环结构（如GRU和LSTM）。循环网络是迄今为止捕捉序列中时间连接最成功的技术之一，但研究表明，仅由注意力机制组成（而非循环神经网络RNN）的架构在翻译任务和自然语言处理任务（如双向编码器表征BERT模型）中表现优于其他架构。 Transformer架构的解码器位于编码器右侧，图中的Nx表示编码器和解码器的模块可以相互堆叠。大部分模块由前馈层和多头注意力层组成。由于不能直接使用字符串，所有输入和输出（目标句子）首先被整合到一个n维空间中。由于没有循环网络来记忆序列如何输入到模型中，因此需要为序列中的每个单词或片段分配相对位置。一系列单词依赖于其组成部分的位置，这些位置可以改善每个单词的n维向量嵌入表示。回归系数的图形表示展示了在对应预测变量变化一个单位时，疾病（响应变量/因变量）的平均变化，同时保持影响疾病发展的其他因素不变。只有当回归系数p < 0.1（更好的是p < 0.05）时，才认为自变量具有显著性。具有高R²且在p < 0.1时显著的因素被确定为疾病状况及其严重程度的主要决定因素。同时，需要在残差图中寻找无偏散点。为了预测给定国家数据集（每日新增病例/死亡人数）的理想值集，使用这些数据生成十条曲线。这十条曲线使用原始数据的一部分，n从9递减到0。将适合每条曲线的一组曲线特征输入到LSTM网络算法中，最终得到GIW曲线的参数，并基于此分布进行预测。使用皮尔逊相关和逐步多元回归分析进行推断统计。在拟合回归模型后，使用5%（p < 0.05，极显著）和10%（p < 0.1，显著）的显著性水平的p值来确定具有统计学意义的关联，即最可能有影响的关联。仅考虑r超出临界值的情况，通过在n - 2自由度和0.05或0.1显著性水平下进行双尾检验，确定与疾病具有高度显著相关性的人口变量。回归系数的图形表示显示了疾病（响应变量/因变量）随一个单位变化的平均变化。 Transformer模型的完整架构如下表所示： |步骤编号|层描述|输入形状|输出形状| | ---- | ---- | ---- | ---- | |1|输入层|[None, 61,71]|[None, 61,71]| | |层归一化|[None, 61,71]|[None, 61,71]| | |多头注意力|[None, 61,71]|[None, 61,71]| | |Dropout|[None, 61,71]|[None, 61,71]| | |Lambda函数|[None, 61,71]|[None, 61,71]| | |层归一化|[None, 61,71]|[None, 61,71]| | |Conv1D|[None, 61,71]|[None, 61,4]| | |Dropout|[None, 61,4]|[None, 61,4]| | |Conv1D|[None, 61,4]|[None, 61,71]| | |Lambda函数|[None, 61,]|[None, 61,71]| |2|层归一化|[None, 61,71]|[None, 61,71]| | |多头注意力|[None, 61,71]|[None, 61,71]| | |Dropout|[None, 61,71]|[None, 61,71]| | |Lambda函数|[None, 61,71]|[None, 61,71]| | |层归一化|[None, 61,71]|[None, 61,71]| | |Conv1D|[None, 61,71]|[None, 61,4]| | |Dropout|[None, 61,4]|[None, 61,4]| | |Conv1D|[None, 61,4]|[None, 61,71]| | |Lambda函数|[None, 61,71]|[None, 61,71]| |3|多头注意力|[None, 61,71]|[None, 61,71]| | |Dropout|[None, 61,71]|[None, 61,71]| | |Lambda函数|[None, 61,71]|[None, 61,71]| | |层归一化|[None, 61,71]|

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

新冠病毒RNA序列预测与基因组学中的机器学习应用

相关推荐

专栏目录

新冠病毒RNA序列预测与基因组学中的机器学习应用

相关推荐

机器学习在基因组学中的应用.pdf

基因工程与基因组学优品文档.ppt

单细胞转录组揭示免疫原性细胞死亡特征与机器学习组合复现

[生物]RNA干扰文库及其在功能基因组学研究中的应用.docx

人工智能-机器学习-基因组尺度高信息量RNA干扰筛选省略物学应用中若干模式识别问题的研究.pdf

rnasa：用于RNA序列样品的基因表达分析仪

RNAi技术及其在基因组学研究中的应用 (2007年)

BESST_RNA:使用RNA seq数据的基因组组装支架

reago:从宏基因组学数据回收16S核糖体RNA的组装工具

基因组医学中的机器学习-计算问题与数据集综述

高通msm-V4L2-Camera驱动浅析4-stream

计算机支持的协同工作软件技术探究的论文.doc

专栏目录

最新推荐

前端交互效果与Perl服务器安装指南

分形分析与随机微分方程：理论与应用

碳纳米管在摩擦学应用中的最新进展

零售销售数据的探索性分析与DeepAR模型预测

数据提取与处理：字符、字节和字段的解析

Web开发实用技巧与Perl服务器安装使用指南

人工智能的组织、社会和伦理影响管理

数据处理与自然语言编码技术详解

编程挑战：uniq与findr实现解析

Rails微帖操作与图片处理全解析