seqkit根据基因id_使用igblast进行免疫组库分析

本文介绍了如何使用igblast进行免疫组库分析,特别是针对TRB部分。内容涉及igblast软件的使用、数据库准备、序列比对、FLASH软件进行PE序列拼接,以及构建人类免疫组库数据库的步骤。强调了igblast在免疫组库分析领域的应用,以及处理数据的关键参数和工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。

接下来又认识了免疫组库测序数据,知道了免疫组库测序数据的一些特性,现在就面临免疫组库数据分析流程的搭建啦,这个其实非常复杂, 今天我只能勉强介绍一下使用igblast进行免疫组库分析,希望大家能跟上来。其实igblast这个软件早在六年前我就介绍过,差不多是重新看着自己的教程,一点一滴复现了一遍。真的要吹爆生信技能树和生信菜鸟团教程,极大的便利了生信工程师的工作。

igblast因为是ncbi出品,所以在免疫组库分析领域还算是使用频率较高的,值得注意的是igblast软件虽然下载即可使用,但是软件用法超级复杂,软件输出的结果文件需要耗费至少五六个小时去理解。

首先看看网页版igblast

简单的复制粘贴一条免疫组库测序数据以FASTA格式粘贴到网页的输入框即可,默认的物种是人类:

TGTGCCAGCAGCTTGGCCCGAGAAGGGATTGAAAACACCATATATTTT

我们这里仍然是使用在前面我们认识的免疫组库测序数据,是人类的,MiSeq测序仪,PE300测序策略,TRB,DNA测序,进行示范。

因为是TRB,所以选择

Database: imgt.TR.Homo_sapiens.V.f.orf.p; imgt.TR.Homo_sapiens.D.f.orf;

imgt.TR.Homo_sapiens.J.f.orf.p

376 sequences; 82,149 total letters

输出结果如下:

因为我们输入的碱基序列只有48个碱基,所以比对结果里面,对V基因来说,TRBV5-401,TRBV5-501的得分是一样的。然后最重要的是CDR3序列,包括核苷酸序列和氨基酸序列。

软件安装及数据库文件准备

首先是软件,因为是二进制,所以下载解压即可使用

mkdir -p ~/biosoft/igblast

cd ~/biosoft/igblast

# 软件是39M,下载速度可能会比较慢

wget -c ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.9.0/ncbi-igblast-1.9.0-x64-linux.tar.gz

tar -xzf ncbi-igblast-

SeqKit 是一个用于 FASTA/Q 文件处理的工具包,它提供了多种命令行工具可以帮助我们进行不同的操作。如果你需要根据基因ID进行注释,可以考虑使用 SeqKit 中的 `grep` 命令。具体操作步骤如下: 1. 将基因ID和注释信息保存在一个文件中,每行一个,用制表符分隔基因ID和注释信息。例如,文件名为 `gene_annotation.txt`,内容如下: ``` ENSG00000000003 GeneA ENSG00000000005 GeneB ENSG00000000419 GeneC ``` 2. 对于需要注释的 FASTA/Q 文件,使用 `grep` 命令根据基因ID进行匹配,并将注释信息添加到 FASTA/Q 的描述信息中。例如,对于一个名为 `sequences.fa` 的 FASTA 文件,可以使用以下命令: ``` seqkit grep -f gene_annotation.txt -i -p "(.+)" -r "{kv:anno}" sequences.fa > annotated_sequences.fa ``` 其中,`-f gene_annotation.txt` 指定了基因ID和注释信息的文件;`-i` 表示忽略大小写匹配;`-p "(.+)"` 表示匹配整个行;`-r "{kv:anno}"` 表示将注释信息添加到 FASTA/Q 的描述信息中,其中 `kv:anno` 表示从 `gene_annotation.txt` 文件中获取注释信息,并将其添加到 FASTA/Q 描述信息中。 运行以上命令后,会生成一个新的 FASTA 文件 `annotated_sequences.fa`,其中每个序列的描述信息会添加注释信息,例如: ``` >ENSG00000000003_GeneA ATCG... >ENSG00000000005_GeneB ATCG... >ENSG00000000419_GeneC ATCG... ``` 其中,`ENSG00000000003_GeneA` 表示基因ID为 `ENSG00000000003`,注释信息为 `GeneA`。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值