Add KEGG Annotation(差异表达分析结果添加KEGG注释信息)

分析模块,输入差异表达分析的结果文件,或其他tabular格式文件(制表符分隔的文本文件)。其中,输入文件的第一列必须为基因名。分析模块,将在输入文件的列尾追加对应基因的KEGG注释信息。

!!对于主要物种,软件团队从KEGG网站上,下载并整理了对应物种的KEGG注释信息。访问,VG软件官方网站:(http://www.vgenomics.cn/),进行下载。


输入:


1、tabular格式文件,其中,第一列必须为基因名(如,差异表达分析结果文件)。

示例:

logFC        logCPM    PValue      FDR

BM590_A1245         6.15272596528251 10.165439565976    2.01452582830612e-13   6.76074867979534e-10

BM590_A0443         6.388071970219      8.77010041474787 5.5393222963017e-13     8.81028214004988e-10

BM590_A1217         5.79192615218837 11.4356964927694 8.31925670547754e-13   8.81028214004988e-10

BM590_A0295         5.83585380417396 10.5748693879181 1.05009322289033e-12   8.81028214004988e-10

BM590_A0086         5.69396789206391 12.1148088822143 1.32578171478056e-12   8.89864686960715e-10

……


2、对应的KEGG注释信息文件,其中,第一列为基因名,第二列为对应的K号。Kddddd表示,在所有同源物种中具有相似结构和功能的一类同源蛋白。如K04456表示丝氨酸/苏氨酸蛋白激酶。

示例:

BM590_A0001         K02313

BM590_A0003         K03629

BM590_A0005         K12972

BM590_A0006         K13896

BM590_A0007         K13895

……


输出:


列尾追加对应基因KEGG注释信息的结果文件。

示例:

logFC        logCPM    PValue      FDR KEGG_Anno

BM590_A1245         6.15272596528251 10.165439565976    2.01452582830612e-13   6.76074867979534e-10   -

BM590_A0443         6.388071970219      8.77010041474787 5.5393222963017e-13     8.81028214004988e-10   K03704

BM590_A1217         5.79192615218837 11.4356964927694 8.31925670547754e-13   8.81028214004988e-10   -

BM590_A0295         5.83585380417396 10.5748693879181 1.05009322289033e-12   8.81028214004988e-10         K01430(ko00791;Atrazine degradation|ko00230;Purine metabolism|ko00220;Arginine biosynthesis)

BM590_A0086         5.69396789206391 12.1148088822143 1.32578171478056e-12   8.89864686960715e-10   K06890

注:

追加的列,Kddddd表示,在所有同源物种中具有相似结构和功能的一类同源蛋白,与输入的KEGG注释信息文件一致。如果具有代谢通路信息,通路信息以“ | ”符号分隔。koddddd表示,代谢通路名称,表示一个特定的生物路径。“ ; ”符号后的文本为对应代谢通路的描述。如果,对应的KEGG注释信息不存在,则用“ - ”符号代替。



分析模块引用了KOBAS(v2.0-20150126)软件(http://kobas.cbi.pku.edu.cn)。


相关文献如下所示:

Xie, C., Mao, X., Huang, J., Ding, Y., Wu, J., Dong, S., Kong, L., Gao, G., Li, C. and Wei, L. (2011) KOBAS 2.0: a web server for annotation and identification of enriched pathways and diseases. Nucleic Acids Res, 39, W316-322.



KEGG 库(Kyoto encyclopedia of genes and genomes 数据库):京都基因和基因组百科全书,是系统分析基因功能、联系基因组信息和功能信息的知识库。利用KEGG数据库,可将基因按照参与的pathway通路或行使的功能分类。

!!更新KOBAS程序后台的KEGG数据库,通过KOBAS官网链接(http://kobas.cbi.pku.edu.cn/),下载最新的ko.db.gz文件,解压后覆盖软件根目录database文件夹下的同名文件。