前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。
接下来又认识了免疫组库测序数据,知道了免疫组库测序数据的一些特性,现在就面临免疫组库数据分析流程的搭建啦,这个其实非常复杂, 今天我只能勉强介绍一下使用igblast进行免疫组库分析,希望大家能跟上来。其实igblast这个软件早在六年前我就介绍过,差不多是重新看着自己的教程,一点一滴复现了一遍。真的要吹爆生信技能树和生信菜鸟团教程,极大的便利了生信工程师的工作。
igblast因为是ncbi出品,所以在免疫组库分析领域还算是使用频率较高的,值得注意的是igblast软件虽然下载即可使用,但是软件用法超级复杂,软件输出的结果文件需要耗费至少五六个小时去理解。
首先看看网页版igblast
简单的复制粘贴一条免疫组库测序数据以FASTA格式粘贴到网页的输入框即可,默认的物种是人类:
TGTGCCAGCAGCTTGGCCCGAGAAGGGATTGAAAACACCATATATTTT
我们这里仍然是使用在前面我们认识的免疫组库测序数据,是人类的,MiSeq测序仪,PE300测序策略,TRB,DNA测序,进行示范。
因为是TRB,所以选择
Database: imgt.TR.Homo_sapiens.V.f.orf.p; imgt.TR.Homo_sapiens.D.f.orf;
imgt.TR.Homo_sapiens.J.f.orf.p
376 sequences; 82,149 total letters
输出结果如下:
因为我们输入的碱基序列只有48个碱基,所以比对结果里面,对V基因来说,TRBV5-401,TRBV5-501的得分是一样的。然后最重要的是CDR3序列,包括核苷酸序列和氨基酸序列。
软件安装及数据库文件准备
首先是软件,因为是二进制,所以下载解压即可使用
mkdir -p ~/biosoft/igblast
cd ~/biosoft/igblast
# 软件是39M,下载速度可能会比较慢
wget -c ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.9.0/ncbi-igblast-1.9.0-x64-linux.tar.gz
tar -xzf ncbi-igblast-