GO Enrichment Analysis(GO富集分析)

分析模块,输入差异基因列表文件、全部基因列表文件和GO注释信息文件。差异基因作为foreground,所有基因作为background,进行差异基因GO富集分析,输出富集结果。

分析模块,使用软件goatools(https://github.com/tanghaibao/goatools)进行富集分析,使用方法为Fisher精确检验。为控制计算的假阳性率,使用4种多重检验方法(Bonferroni, Holm, Sidak 和false discovery rate) 对p值进行了校正,通常情况下,当经过校正后的p值≤0.05时,认为此GO功能存在显著富集情况。

!!对于主要物种,软件团队从Ensemble网站上,下载并整理了对应物种的GO注释信息。访问,VG软件官方网站:(http://www.vgenomics.cn/),进行下载。


输入:


1、差异基因列表文件,可由分析模块“Batch Mode: Retrieve Diff Genes list”获得。

示例:

BM590_B0190

BM590_A0615

BM590_B0191

BM590_B0407

BM590_B0166

BM590_A0618

……


2、全部基因列表文件,可由分析模块“Fetch all genes(row names) list from matrix”通过原始的FPKM矩阵或Count矩阵获得。

示例:

BM590_A0001

BM590_A0002

BM590_A0003

BM590_A0004

BM590_A0005

BM590_A0006

BM590_A0007

BM590_A0008

BM590_A0009

……


3、对应的GO注释信息文件,其中,第一列为基因名,第二列为对应的GO注释结果(以“ ; ”符号分隔)。

示例:

BM590_A0001         GO:0003688;GO:0005524;GO:0006275;GO:0006270;GO:0005737

BM590_A0002         GO:0003677;GO:0006260;GO:0055114;GO:0005737;GO:0003887

BM590_A0003         GO:0003697;GO:0006281;GO:0005524;GO:0006260;GO:0009432;GO:0005737

BM590_A0004         GO:0008152;GO:0003824

BM590_A0005         GO:0051287;GO:0055114

……


输出:


差异基因GO富集分析结果文件。

示例:

id      enrichment        description        ratio_in_study  ratio_in_pop     p_uncorrected  p_bonferroni    p_holm     p_sidak    p_fdr         namespace       genes_in_study

GO:0019843     e       rRNA binding    23/342      38/3357   2.62e-07   0.000774 0.000774 0.000755 n.a.   molecular_function         BM590_A2173;BM590_A1223;BM590_A1221;……

GO:0043228     e       non-membrane-bounded organelle   28/342      67/3357   2.86e-07   0.000847 0.000847 0.000826 n.a.         cellular_component BM590_A2173;BM590_A1223;BM590_A1221;……

GO:0043043     e       peptide biosynthetic process     34/342      67/3357   2.86e-07   0.000847 0.000847 0.000826 n.a.         biological_process    BM590_A2173;……

……

GO:0046394     p       carboxylic acid biosynthetic process          1/342        94/3357   0.000775 1       1       1       n.a.   biological_process         BM590_B0462

……

注:

其中,每一列的含义如下所示:

l  id,Gene Ontology数据库中唯一的标号信息。

l  enrichment,“ e ”表示显著富集(enriched),ratio_in_study显著高于ratio_in_pop。“ p ”表示显著不富集(purified),ratio_in_study显著低于ratio_in_pop。通常情况下,只有显著富集的结果才有生物学意义(需要过滤显著不富集的结果)。

l  description,GO功能描述。

l  ratio_in_study  ,该GO Term中,富集到该GO Term的差异基因数目与差异基因总数的比值(foreground)。

l  ratio_in_pop ,该GO Term中,富集到该GO Term的基因数目与全部基因总数的比值(background)。

l  p_uncorrected,Fisher精确检验的p值,检验ratio_in_study的值与ratio_in_pop的值是否存在显著差异。

l  p_bonferroni,bonferroni方法校正后的p值。

l  p_holm,holm方法校正后的p值。

l  p_sidak,sidak方法校正后的p值。

l  p_fdr ,fdr方法校正后的p值。

l  namespace,GO从属的功能三大类(分子功能、细胞组成、生物过程)。

l  genes_in_study,富集到该GO Term的差异基因列表,以“ ; ”符号分隔。



分析模块引用了goatools(v0.5.7)软件(https://github.com/tanghaibao/goatools/)。


相关文献如下所示:

Haibao Tang et al. (2015). GOATOOLS: Tools for Gene Ontology. Zenodo. 10.5281/zenodo.31628.



GO(Gene Ontology) 是基因本体论联合会建立的数据库,适用于各物种,对基因和蛋白功能进行限定和描述。利用 GO 数据库,可以将基因按照它们参与的生物学过程、构成细胞的组分,实现的分子功能等进行分类。因此GO注释更加便于我们理解基因背后所代表的生物学意义。

!!更新GO结构关系和描述信息数据库,通过Gene Ontology官网链接(http://geneontology.org/ontology/go-basic.obo),下载最新的go-basic.obo文件,覆盖软件根目录database文件夹下的同名文件。