与上一篇类似,但是这个更精简:
1. 借助测序公司的功能批注程序,往往包含kegg, CAZy, CARD, eggnog等不同的批注方式;
这其中,CAYz的注释就是专门针对各种酶的。
2. 借助已知酶蛋白序列,通过基因组\\蛋白组序列文件的blastn\\blastp功能,查找相似序列;
E-value范围在10e-50 ~ 10e-100之间的,就是我们的靶标序列;
E-value范围在10e-10 ~ 10e-50之间的序列,可能是我们靶标序列的同系物;
3. 通过保守功能域进行查找,有时候,由于各种各样的原因,比如说现有数据库的基本批注功能并不能够满足我们的需求;
这时候,先进行对现有已知酶序列进行alignment,找到保守的短序列,在基因组、蛋白组序列文件中直接查找,这种方法大多数情况下,也是可行、可信的。
4. 借助Interpro的Pfam蛋白功能域批注:
pfam功能批注,并不是标准的三代测序\\宏基因组测序的分析项目,但是它有一个巨大的优点,在查找潜在酶蛋白序列时是很实用的;它可以:
1)对已知酶序列进行pfam批注;
2)对测序结果 panbio\\宏基因组等进行pfam批注;
3)根据对已知酶序列的批注情况,从2)的结果中筛选相同功能域的蛋白序列,即是我们潜在的靶标酶序列。
||||\\\\分析—某鱼 检索 “ Interpro Pfam蛋白功能重批注—可开发P ”
||||\\\\分析—某鱼 检索 “ 蛋白表达亚细胞定位分析;全流程,可开发P ”
||||\\\\分析—某鱼 检索 “病毒蛋白亚细胞定位 ”
||||\\\\分析—某鱼 检索 “Enzyme function prediciton using constrative learning 可开发P ”
||||\\\\分析—某鱼 检索 “signalp6 分泌信号肽预测 可开发P ”
||||\\\\分析—某鱼 检索 “全基因组间序列比对,找差异表达序列 ”
||||\\\\分析—某鱼 检索 “ 序列进化树作图,系统进化树作图; ”
||||\\\\分析—某鱼 检索 “ pacbio测序数据分析,功能酶挖掘,可开发P ”
如此,便可从pacbio测序结果中,挖掘到自己想要的序列文件……
下图是一个批注结果截图示例;