您的当前位置:首页正文

基因集富集分析

来源:花图问答

首先从一个叫S的探针集序列开始,假定它是一类编码产生新陈代谢的通路基因集,被定位于相同的细胞生成位段,或者是说有相同GO分类。(译者注:GO是什么?维基百科。) GSEA的目的就在于判断S的成员是随机的分布于L(待测基因探针所排序列)上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。

下面是具体的三个重要步骤:

  1. 计算富集积分(Enrichment Score,ES)
    我们计算出一个富集积分值(ES),其为S的基因在整个L序列的头部和尾部的超表达量。
    积分值的计算是从L序列的头部开始往尾部走,每当遇到一个基因是在S上就加分,没有则减分。加分的分值大小根据基因表型相关系数大小。富集分值是从没有遇到的时候开始计算直到最大值误差值;而且它还与K-S test统计加权值有关。
  2. 估计ES的显著程度
    我们估计统计学上有意义部分的ES值(名义上的P值),是通过一个经验基础表型方法——置换检验,保存基因表达数据的结构的复杂相关系数。明确地,我们置换不同表型标签下的数据,并且再一次计算ES值,使之形成一个新的ES分布(假分布)。从经验上说,交换之后,ES的P值相对于新的ES值(统计分布)来说若是显著的变化,则有理由说明此基因集是有一定的生物学意义的。
  3. 多重假设检验的调整
    当评估了所有基因探针数据之后,我们会用多重假设检验来评价它们的显著性。我们首先把每一个探针的ES值做根据探针多少的一个标准化,生成一个标准化富集积分值(NES)。之后我们计算出假阳性发现率(FDR),并以此划出假阳性部分对应每一个NES值。FDR是评估一个NES表达值中所发现的假阳性可能性大小;它是由NES的观测值和零分布时比较得出的。

参考文章: