edger多组差异性分析_edgeR基因表达差异分析

最新推荐文章于 2022-12-24 02:19:34 发布

原创

最新推荐文章于 2022-12-24 02:19:34 发布 · 1.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#edger多组差异性分析

这篇博客详细介绍了如何使用edgeR包进行多组差异性分析，包括读取基因表达数据、构建DGEList对象、过滤低表达基因、进行CPM转换、归一化处理、模型建立和差异基因计算等步骤，强调了在不同阶段应注意的细节和参数选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

edgeR基因表达差异分析

官方文档总结

==注意⚠️：== - edgeR设计用于实际读取计数。我们不建议将预测的转录本丰度输入到edgeR而不是实际计数中。

读取read数

可以使用read.table()，read.delim(),如果文件比较多，readDGE(files, columns=)来一次性读取多个文件。注意，readDGE()需要指定两列，一列用于计数，一列用于基因标识符

DGEList对象、构建分组

DGEList是一个可以包含多种内容和统计的列表。DGEList至少需要的元素：counts、samples(包含group分组信息和lib.size文库大小)，counts用来存放表达矩阵，samples用来标记样本信息和库的大小，group声明组别。

# 构建一个含有组别标记的DGEList

group

DGEList中分组是必要的，也可以添加其他信息进去，例如lane道，基因长度，基因注释等信息一个注释过的DGEList

过滤，删除低表达基因

低表达基因不仅用不到，而且会干扰结果，所以要去除在任何样本中都没有足够多的序列片段的基因应该从下游分析中过滤掉，因为： 1. 低表达没有生物学意义 2. 去除低表达数据可以对数据中均值-方差关系有更精确的估计 3. 减少了观察差异表达下游分析中的运算量

edgeR包中的filterByExpr函数提供了自动过滤基因的方法，可保留尽可能多的有足够表达计数的基因。此函数默认选取最小的组内的样本数量为最小样本数，保留至少在这个数量的样本中有10个或更多序列片段计数的基因。过滤标准是，以最小对组内样本数为标准，(此例最小组内样本为3)，如果有基因在所有样本中表达数(count)小于10的个数超过最小组内样本数，就剔除该基因。换算为cpm即cut.off.cpm=10/

CPM标度转换

常用