新冠病毒RNA序列预测与基因组学中的机器学习应用
立即解锁
发布时间: 2025-09-02 00:30:44 阅读量: 9 订阅数: 15 AIGC 

### 新冠病毒RNA序列预测与基因组学中的机器学习应用
#### 1. 模型中引入Transformer架构
Transformer是一种使用编码器和解码器将一个序列转换为另一个序列的架构,与LSTM类似。但与之前提到的和已在使用的序列到序列模型不同,它不包含任何循环结构(如GRU和LSTM)。循环网络是迄今为止捕捉序列中时间连接最成功的技术之一,但研究表明,仅由注意力机制组成(而非循环神经网络RNN)的架构在翻译任务和自然语言处理任务(如双向编码器表征BERT模型)中表现优于其他架构。
Transformer架构的解码器位于编码器右侧,图中的Nx表示编码器和解码器的模块可以相互堆叠。大部分模块由前馈层和多头注意力层组成。由于不能直接使用字符串,所有输入和输出(目标句子)首先被整合到一个n维空间中。
由于没有循环网络来记忆序列如何输入到模型中,因此需要为序列中的每个单词或片段分配相对位置。一系列单词依赖于其组成部分的位置,这些位置可以改善每个单词的n维向量嵌入表示。
回归系数的图形表示展示了在对应预测变量变化一个单位时,疾病(响应变量/因变量)的平均变化,同时保持影响疾病发展的其他因素不变。只有当回归系数p < 0.1(更好的是p < 0.05)时,才认为自变量具有显著性。具有高R²且在p < 0.1时显著的因素被确定为疾病状况及其严重程度的主要决定因素。同时,需要在残差图中寻找无偏散点。
为了预测给定国家数据集(每日新增病例/死亡人数)的理想值集,使用这些数据生成十条曲线。这十条曲线使用原始数据的一部分,n从9递减到0。将适合每条曲线的一组曲线特征输入到LSTM网络算法中,最终得到GIW曲线的参数,并基于此分布进行预测。
使用皮尔逊相关和逐步多元回归分析进行推断统计。在拟合回归模型后,使用5%(p < 0.05,极显著)和10%(p < 0.1,显著)的显著性水平的p值来确定具有统计学意义的关联,即最可能有影响的关联。仅考虑r超出临界值的情况,通过在n - 2自由度和0.05或0.1显著性水平下进行双尾检验,确定与疾病具有高度显著相关性的人口变量。回归系数的图形表示显示了疾病(响应变量/因变量)随一个单位变化的平均变化。
Transformer模型的完整架构如下表所示:
|步骤编号|层描述|输入形状|输出形状|
| ---- | ---- | ---- | ---- |
|1|输入层|[None, 61,71]|[None, 61,71]|
| |层归一化|[None, 61,71]|[None, 61,71]|
| |多头注意力|[None, 61,71]|[None, 61,71]|
| |Dropout|[None, 61,71]|[None, 61,71]|
| |Lambda函数|[None, 61,71]|[None, 61,71]|
| |层归一化|[None, 61,71]|[None, 61,71]|
| |Conv1D|[None, 61,71]|[None, 61,4]|
| |Dropout|[None, 61,4]|[None, 61,4]|
| |Conv1D|[None, 61,4]|[None, 61,71]|
| |Lambda函数|[None, 61,]|[None, 61,71]|
|2|层归一化|[None, 61,71]|[None, 61,71]|
| |多头注意力|[None, 61,71]|[None, 61,71]|
| |Dropout|[None, 61,71]|[None, 61,71]|
| |Lambda函数|[None, 61,71]|[None, 61,71]|
| |层归一化|[None, 61,71]|[None, 61,71]|
| |Conv1D|[None, 61,71]|[None, 61,4]|
| |Dropout|[None, 61,4]|[None, 61,4]|
| |Conv1D|[None, 61,4]|[None, 61,71]|
| |Lambda函数|[None, 61,71]|[None, 61,71]|
|3|多头注意力|[None, 61,71]|[None, 61,71]|
| |Dropout|[None, 61,71]|[None, 61,71]|
| |Lambda函数|[None, 61,71]|[None, 61,71]|
| |层归一化|[None, 61,71]|
0
0
复制全文
相关推荐










