超几何分布
超几何分布算法,在基因富集里面的解释:
假设,你call 出来的所有样本的SNPs共有20000个,2万个基因在所有信号通路有个分布情况,
你感兴趣的样本1的样本1call 出来的SNP1000个,你想要看这1000个基因主要分布在哪些信号通路上。这个时候用超几何分布。
===============
GSEA是另一种被开发用来描述基因富集的算法。
算法文章:http://software.broadinstitute.org/gsea/doc/subramanian_tamayo_gsea_pnas.pdf
======================
这两种算法用clusterProfiler都可以实现。
使用clusterProfiler跑自己数据库的超几何分布,使用模块enricher。输入文件包括:
待富集的基因列表,clusterProfiler推荐使用entrezID基因列表

实验中得到的gene 通常可以分为2类,如可以分为对药物的敏感和抗性2类。可以根据在这两类的表达中差异将基因排列成有顺序的列表,用 L 表示。
GSEA 的目的 是 如果你有一个基因列表 S , 找出 S 是否富集在 L 的底部或者顶部。因为底部和顶部的基因是最能够影响表型的。

GSEA 考虑的是全基因组范围内 基因表达富集,样本来源分为2类 ,分别标记位1,2。
这两类基因分别根据其表达与分类的关系排序,如图1A。
