Phusion2:基于read聚类的基因组组装流程-开源
Phusion2 是使用 NGS 数据进行从头基因组组装的管道。 它基于一种称为读取聚类的策略。 从 kmer 频率分析开始,这允许合理选择 kmer 大小。 来自原始读取的 K 元组被合并并排序到一个表中,以便可以链接不同读取共享的多个出现的 kmer 词。 关系矩阵用于记录所有读取之间共享的 kmer 词。 设置共享 k 元组的最小阈值,然后可以使用关系矩阵中的 kmer 共享信息将整个读取集聚类成组。 在获得大小可控的小读簇后,可以使用本地组装器来产生重叠群。 Phusion2是一款基于读取聚类的开源基因组组装流程,专为新一代测序(NGS)数据设计。它的核心策略在于通过分析k-mer频率来优化组装过程,特别是选择了合适的k-mer大小。在基因组组装中,k-mer是DNA序列中连续的k个碱基对,其大小的选择直接影响组装质量。Phusion2首先从原始测序读取中提取K元组,并将它们合并、排序到一个表中,便于后续处理。 在这一过程中,Phusion2创建了一个关系矩阵,记录了所有读取之间共享的k-mer。这个矩阵有助于识别不同读取之间的关联性,因为共享的k-mer数量越多,说明这些读取可能来自同一序列片段。设定一个共享k-mer的最小阈值后,可以利用这些信息将读取聚类成更小、更易管理的簇。这样的聚类方法有助于减少组装过程中的复杂性,使得局部组装器能更有效地构建重叠群,从而提高组装的准确性和完整性。 接下来,提到的Scaff10x是一个基于关系矩阵的算法,特别适用于使用10x Genomics数据进行基因组 scaffold(拼接)的构建。Scaff10x的工作原理是通过连接共享条形码的contig(连续片段),来确定contig的顺序和方向,从而构建assembly scaffolds。当增加共享条形码的数量时,可以中断原本的连接,进一步优化scaffold结构。 Scaff10x V4.1版本新增了Scaff_FilePreProcess模块,该模块包含了三个主要功能:读取gzip压缩文件、处理条形码以及使用BWA进行比对。输入文件包括gzip压缩的fastq文件、目标组装的10x Longranger bam文件以及之前已经比对好的sam文件。输出文件则包括scaffolded的fasta文件和描述scaffold结构的AGP文件。在资源需求方面,Scaff10x需要一定的内存和CPU来运行,具体需求会根据输入数据的规模而变化。 Phusion2和Scaff10x都是生物信息学领域的重要工具,它们结合了读取聚类和scaffold构建的策略,为基因组组装提供了一种高效且精确的方法。开源软件的特性使得全球的研究者能够利用这些工具进行定制化研究,推动基因组学领域的进步。通过不断优化和更新,这些工具将持续提升我们解析复杂生物系统的能力,尤其是在面临大型或重复序列丰富的基因组时。































- 粉丝: 38
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- PLC的物料分拣机械手自动化控制系统设计方案.doc
- 试析企业财务管理受到的会计信息化影响及对策.docx
- 计算机科学与技术医院实习报告.docx
- 自动编程实训参考空白研究分析报告.doc
- 关于插件技术在计算机软件技术中的应用价值.docx
- 基于Android平台的大学计算机基础课程APP设计与应用.docx
- 基于P2P模式下的大学生网络借贷的风险防范研究.docx
- 电梯模型PLC控制系统设计方案与调试.doc
- 基于大数据的学生成绩影响因素分析系统.docx
- 网络环境下情报学研究的知识化.docx
- Flet框架实现的毛主席七律《长征》的诗句楼梯斜梯排列效果自定义模板
- 智能仪表的CAN接口设计.doc
- “乐佳盟智能化社区”网站设计方案.doc
- kV变电站二次网络安全设备规范书.doc
- 物联网在图书馆管理中的关键技术分析.doc
- 高一计算机期末试题.doc



评论0