解决cd-hit-est 慢test1 & test2

本文详细介绍了使用Mothur和Cd-hit-est等生物信息学工具进行基因序列筛选、聚类及去重的过程。通过一系列命令操作,从大量基因数据中筛选出特定样本的序列,并进行高质量序列的比对与聚类分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

test1

cd /mnt/10t/mzy/48samples/geneset/
for i in 123 126 134 131 125 140 132 149 148 122 143 133 145 152 118 147 121 151 135 136 150 146 141 137
cat all.fa| grep "$i\_\_"| sed 's/>//g' >$i.id
mothur "#get.seqs(accnos=$i.id,fasta=all.fa)"
mv all.pick.fa $i.all.fa
/mnt/10t/mzy/script/cd-hit-est -i $i.all.fa -o $i.fa -n 9 -c 0.95 -G 0 -M 0 -d 0 -aS 0.9 -r 0 -T 88
done
cat 123.fa 126.fa 134.fa 131.fa 125.fa 140.fa 132.fa 149.fa 148.fa 122.fa 143.fa 133.fa|cd-hit-est -o merged1.fa -T 88 -aS 0.9 -d 0 -n 9 -c 0.95 -G 0 -M 0 -r 1
cat 145.fa 152.fa 118.fa 147.fa 121.fa 151.fa 135.fa 136.fa 150.fa 146.fa 141.fa 137.fa|cd-hit-est -o merged2.fa -T 88 -aS 0.9 -d 0 -n 9 -c 0.95 -G 0 -M 0 -r 1
cat merged2.fa merged1.fa|cd-hit-est -o unique24.fa -T 88 -aS 0.9 -d 0 -n 9 -c 0.95 -G 0 -M 0 -r 1
mkdir cd /mnt/10t/mzy/24samples/geneset/
mv unique24.fa /mnt/10t/mzy/24samples/geneset/

test2

for i in 123 126 134 131 125 140 132 149 148 122 143 133 145 152 118 147 121 151 135 136 150 146 141 137
cat /mnt/10t/mzy/72sample/01assembly/contigs/$i.contig.ok.fa|prodigal -a $i.faa -d $i.fa
cat 123.fa 126.fa 134.fa 131.fa 125.fa 140.fa 132.fa 149.fa 148.fa 122.fa 143.fa 133.fa|cd-hit-est -o merged1.fa -T 88 -aS 0.9 -d 0 -n 9 -c 0.95 -G 0 -M 0 -r 1
cat 145.fa 152.fa 118.fa 147.fa 121.fa 151.fa 135.fa 136.fa 150.fa 146.fa 141.fa 137.fa|cd-hit-est -o merged2.fa -T 88 -aS 0.9 -d 0 -n 9 -c 0.95 -G 0 -M 0 -r 1
cat merged2.fa merged1.fa|cd-hit-est -o unique24.fa -T 88 -aS 0.9 -d 0 -n 9 -c 0.95 -G 0 -M 0 -r 1
mkdir cd /mnt/10t/mzy/24samples/geneset/
mv unique24.fa /mnt/10t/mzy/24samples/geneset/

### 使用 CD-HIT-EST 工具 CD-HIT-EST 是一种用于聚类和比较大规模核酸序列数据集的高效程序。该工具特别适用于处理新一代测序技术产生的大量短读取数据[^1]。 #### 安装 CD-EST 为了安装 CD-HIT-EST,通常需要下载并编译源代码包。可以从官方网站获取最新版本的软件包,并按照提供的说明文档完成安装过程。对于大多数 Linux 和 macOS 用户来说,推荐通过命令行界面执行此操作: ```bash wget http://cd-hit.sourceforge.net/cdhit-v4.8.1.tar.gz tar zxvf cdhit-v4.8.1.tar.gz cd cd-hit-v4.8.1 make sudo make install ``` 这组指令会自动解压文件、配置环境变量并将可执行文件复制到系统的路径中[^2]。 #### 运行 CD-HIT-EST 的基本参数设置 当准备运行 CD-HIT-EST 来分析一组 ESTcDNA 序列时,可以使用如下基础命令结构来指定输入输出文件及其他必要选项: ```bash cd-hit-est -i input.fasta -M memory_limit -T num_threads ``` 其中各个参数的意义分别为: - `-i` 后跟待处理的 FASTA 格式的核苷酸序列文件名; - `-o` 表示输出的结果保存位置前缀; - `-c` 设定相似度阈值,默认情况下为 0.9(即 90% 相似),可以根据具体需求调整; - `-n` 设置字长大小,在不同类型的序列上表现各异,一般建议设为 5 到 8 之间; -T` 并行线程数,取决于计算机 CPU 性能而定,合理利用多核心优势加快计算速度[^3]。 例如,要对名为 `all.transcripts.fa` 的转录本集合进行去重处理,并允许最多占用 8GB RAM 资源以及启用全部 16 个逻辑处理器来进行加速运算的话,完整的调用语句应该是这样的: ```bash cd-hit-est -i all.transcripts.fa -o unique_transcripts -c 0.95 -n 5 -M 8000 -T 16 ``` 这样就可以得到经过筛选后的非重复代表性序列列表以及其他辅助信息文件了[^4]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值