基于多任务学习和丰度算法的基因组序列分析新进展
立即解锁
发布时间: 2025-08-30 01:17:31 阅读量: 7 订阅数: 26 AIGC 

### 基于多任务学习和丰度算法的基因组序列分析新进展
在基因组序列分析领域,多任务学习(MTL)和新的丰度算法不断推动着该领域的发展。本文将介绍基于分类学的多任务学习在序列分类中的应用,以及一种新颖的基于丰度的宏基因组序列分箱算法(AbundanceBin)。
#### 基于分类学的多任务学习在序列分类中的应用
在拼接实验中,研究人员采用了特定的分类学方法来关联生物。通过对15个真核基因组的剪接位点数据集进行分析,比较了五种方法的平均精度 - 召回曲线(auPRC)性能,其中包括两种基线方法(Plain和Union)和三种提出的方法(Top - Down、Pairwise和Multikernel)。
实验结果表明,两种MTL方法始终优于基线方法。在15个案例中有14个案例中,使用层次信息能够改善预测结果。MTL方法能够提高密切相关生物的性能,同时对远缘相关生物的性能基本没有损失。
特别有趣的是,构巢曲霉(A. nidulans)和秀丽隐杆线虫(C. elegans)是仅有的Union方法明显比Plain方法差的生物。这暗示了这两种生物在剪接位点识别上存在重大差异,对于秀丽隐杆线虫而言,这种差异更值得深入研究,也有必要对其他线虫基因组进行调查,以更好地理解这一现象。
此外,研究人员概述了两种利用相关生物信息的主要方式,并提出了三种能够处理大规模问题的算法,这些问题在基因组序列分析中经常遇到。实验证明,这些方法在合成数据和剪接位点预测数据上均优于基线方法。
一方面,Plain方法相对于MTL方法的较差性能表明,利用其他任务的信息实际上是有益的;另一方面,Union方法的不佳结果表明,没有一种单一的模型能够平等地适用于所有任务。显然,根据任务的相关性仔细组合不同任务数据的方法表现最佳。
Top - Down - SVM方法表现出色,它提供了一种快速、简单且非参数的方式来利用层次信息。然而,推断准确的任务相似性矩阵Γ并非易事,因此需要考虑使用层次结构来促进这一任务的其他方法。拼接数据实验表明,基于树跳距离的简单任务相似性矩阵可能不是最优的,特别是在边长度(即与父节点的进化距离)不相等的情况下。
研究人员还总结了MTL方法发挥优势的条件:
1. 问题必须足够困难,需要大量的数据。具体来说,每个任务的训练示例数量相对于模型的复杂性而言相对较低。
2. 任务之间必须足够相似,以包含相互相关的信息。如果任务差异太大且学习问题相对容易,独立学习任务可能更好;相反,如果任务过于相似,MTL方法相对于获得一个全局模型不会有太大改进。
在合理的问题难度和任务相似性条件下,当考虑相对较多的任务时,层次结构能够带来最大的益处。特别是当层次结构描述了丰富的结构时,与单一全局模型(如Union)相比,能够获得更好的效果。
研究人员计划基于修改后的SVMLight和LibSVM版本,在Shogun机器学习工具箱中提供所有提出方法的公开可扩展实现。在计算生物学中,有大量问题存在多个生物的相应数据集,预计层次MTL方法能够为这类问题带来显著的改变,这些方法和实现可能对广泛的应用具有价值。
#### 宏基因组序列分箱新算法:AbundanceBin
宏基因组学研究直接从自然环境中采样微生物群落,无需事先培养。随着DNA测序技术的快速发展,新一代测序(NGS)技术提供了低成本的测序,大大增加了单次运行中获得的序列数据量。
宏基因组项目的主要目标之一是表征环境样本中的生物,并确定每个生物的代谢作用。目前有两类计算工具用于估计分类学内容:
1. **基于相似性和系统发育的方法**:这类方法将宏基因组序列映射到分类单元,利用宏基因组序列与已知基因/蛋白质数据库的相似性搜索。例如MEGAN、MLTreeMap、AMPHORA和CARMA等工具。然而,这些方法对于不匹配已知基因/蛋白质的序列的分类学分布说明有限。PhymmBL结合了相似性搜索和DNA组成模式,提高了短读长的系统发育分类准确性。
2. **基于DNA组成的分箱方法**:这类方法试图将宏基因组序列聚类到不同的箱(即物种)中,基于基因组的各种DNA组成模式,如G
0
0
复制全文
相关推荐








