基因家族扩张收缩分析可视化(CAFE5)

CAFE常用语进行基因家族扩张收缩分析,之前对结果可视化,都需要我自己调用R/ggtree。最近发现了一个工具,可以帮我偷懒,工具名字是 cafeplotter ,他是一个python库。

pip install cafeplotter

对CAFE5结果进行可视化,我们假设输入文件夹是 cafe5_out(CAFE5运行结果),输出目录是plot

cafeplotter -i ./cafe5_out -o ./plot --ignore_branch_length

输出结果分为两部分,一个是整体变化

在这里插入图片描述
一个是具体的基因家族的数目变化
在这里插入图片描述

参数说明

下面逐项说明 CafePlotter 常用参数的作用,以及在什么情况下需要调整

General Options(通用选项)

参数解释典型用法/注意点
-i / --indir必需。指定 CAFE5 运行结束后生成的结果目录(里面应包含 *.cafe, *.tree, *.txt 等文件)。e.g. -i ./cafe5_output
-o / --outdir输出图片所在目录;不存在时会自动创建。若不指定则默认写到当前工作目录下的 ./CafePlotter_out/建议显式指定以便管理:-o ./figures
--format输出图片格式,支持 png (默认)、jpgsvgpdf准备排版到论文/幻灯片时可选 pdf 或 svg 矢量格式;发群聊预览就用 png
-v / --version打印当前 CafePlotter 版本号后退出。排查兼容性问题时查看版本。
-h / --help显示帮助信息后退出。快速查看参数说明。

Figure Appearance Options(图形外观选项)

参数解释何时需要调整
--fig_height每个叶节点在垂直方向占用的高度(单位:英寸)。默认 0.5 英寸。树包含越多物种,整体高度 = 0.5 × 叶节点数。树很长时可以减小到 0.4 或 0.3;节点很少但想让文字更清晰,则增大。
--fig_width整张图的宽度(英寸)。默认 8.0。若叶名很长或想放两列子图时可调大或调小。
--leaf_label_size叶节点(物种名)字体大小,默认 12 pt。需要在 A4 幅面查看就保持 12;若打成海报可调到 14 甚至 16。
--count_label_size基因拷贝数标注字体大小,默认 8 pt。拷贝数标签多且密集时可减小;若密度不高则可调到 10。
--innode_label_size内部节点拷贝数字体大小,默认 0(=不显示)。若想展示祖先节点拷贝数,可设 6–8;不关心可保持 0 隐藏。
--p_label_size分支 p‑value(显著性)字体大小,默认 0(=不显示)。做简报强调显著分支时设 6 或 8,并配合 --p_cutoff (若脚本支持)过滤;否则保持 0 减少干扰。
--ignore_branch_length取消按实际分支长度绘图,设为 ON 后各分支长度均相同。默认 OFF。当树分支长短差异极大导致叶节点挤在一起时可打开。
--expansion_color家族扩张(copy number ↑)的标记颜色,默认 red需要与实验组颜色匹配或印刷需求时可改如 #E64B35
--contraction_color家族收缩(copy number ↓)的标记颜色,默认 blue同上;与扩张色形成对比即可。
--dpi输出位图分辨率,默认 300 dpi。排版印刷 ≥ 300 dpi;网页预览 150–200 dpi 足够。
<think>好的,用户想了解如何使用OrthoFinder进行四倍体物种分析。首先,我需要回忆OrthoFinder的基本功能和它在同源基因分析中的应用。根据引用[1],OrthoFinder用于识别平行基因和直系同源基因,并推断物种树,这说明它在处理多物种基因组数据方面的能力。 接下来,用户的问题涉及四倍体物种,这可能意味着需要处理多倍体或同源多倍体的情况。OrthoFinder在处理多倍体时是否有特别的方法?我需要查看OrthoFinder的文档或相关文献,确认它是否支持多倍体分析。根据OrthoFinder的官方资料,它确实可以处理多倍体,但可能需要特定的参数设置或预处理步骤。 然后,用户需要具体的使用方法和教程。我应该分步骤说明,包括数据准备、运行命令、结果解读等。例如,输入文件应为蛋白序列的FASTA格式,每个四倍体样本可能需要作为单独的物种处理,或者考虑亚基因组的情况。引用[1]中提到OrthoFinder的版本是v2.5.5,可能需要确认该版本对四倍体的支持情况。 另外,引用[2]中提到了同源比对时选择多个物种进行预测,这可能意味着在四倍体分析中,需要包括近缘二倍体物种作为参考,以帮助鉴定同源基因。因此,在步骤中可能需要建议用户加入相关二倍体物种的数据。 此外,OrthoFinder的结果可以用于后续分析,如分化时间估算(如引用[1]中的MCMCTree)和基因家族扩展收缩分析CAFE5),这可能需要在教程中提及,以展示整体分析流程。 需要确保回答符合系统指令,使用正确的LaTeX格式,如变量用$...$,独立公式用$$...$$。同时,生成相关问题,可能涉及多倍体分析的挑战、其他工具的比较、结果可视化等。 最后,检查是否有遗漏的步骤或用户可能遇到的常见问题,例如如何处理多倍体的同源分配,是否需要调整参数等,确保回答全面且准确。</think>### OrthoFinder用于四倍体物种分析的步骤指南 #### 1. **数据准备** - **输入文件**:需提供四倍体物种及其近缘二倍体物种的蛋白序列(FASTA格式)。例如: - 四倍体:`Tetraploid_A.fa`, `Tetraploid_B.fa`(若存在亚基因组分化) - 二倍体参考物种:`Diploid_1.fa`, `Diploid_2.fa` - **注意事项**: - 若四倍体存在亚基因组(如异源四倍体),需将亚基因组作为独立物种处理[^1]。 - 建议包含近缘二倍体物种以提高直系同源基因识别准确性[^2]。 #### 2. **运行OrthoFinder** ```bash orthofinder -f input_files/ -t 16 -a 8 ``` - **参数说明**: - `-t`:线程数(根据计算资源调整) - `-a`:并行分析的核心数 - 若数据量大可添加`-M msa`启用多序列比对模式 #### 3. **关键结果解读** - **直系同源组(Orthogroups)**:四倍体基因可能分布于多个直系同源组中,需结合亚基因组信息判断基因保留模式。 - **物种树构建**:四倍体在树中可能表现为多分枝结构,需结合分化时间校准。 - **基因重复事件检测**:通过`Orthogroups.GeneCount.tsv`识别四倍体特有基因扩张。 #### 4. **四倍体分析的特殊处理** - **亚基因组分配**:若四倍体为异源多倍体(如小麦),需先通过分亚基因组工具(如`SubPhaser`)预处理,再输入OrthoFinder。 - **同源类型区分**:使用`orthofinder_results/Orthologues/`目录下的结果,结合GO富集分析(类似引用[3]方法)筛选功能相关的保留基因。 #### 5. **下游分析整合** - **分化时间估算**:将OrthoFinder生成的物种树输入MCMCTree(如引用[1]),校准四倍体形成时间。 - **基因家族演化**:通过CAFE5分析基因家族扩张/收缩事件,需注意四倍体基因剂量效应。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值