分析模块,采用edgeR的TMM(trimmed mean of M-values)方法对测序片段计数矩阵(Count Matrix)进行标准化处理。 如果不提供基因的长度信息文件,将只进行TMM标准化处理。 如果提供基因的长度信息文件,将使用TMM方法将Count数据转换为FPKM数据,输出FPKM矩阵。 注:标准化处理之后的矩阵可用于PCA、热图、聚类分析等。 输入: 1、测序片段计数矩阵(Count Matrix)。 示例: T4 T5 T6 T7 T8 T9 BM590_A0001 565 505 843 286 247 1909 BM590_A0002 362 295 512 124 118 876 BM590_A0003 235 213 333 126 47 1021 BM590_A0004 291 325 447 404 878 1600 BM590_A0005 530 607 848 709 1194 2001 BM590_A0006 456 425 786 287 139 1857 BM590_A0007 21 16 27 1 3 26 BM590_A0008 282 252 425 85 46 843 …… 2、基因长度信息文件(可选),其中第一列为基因名称、第二列为对应的序列长度。 示例: BM590_A0001 1584 BM590_A0002 1131 BM590_A0003 1155 BM590_A0004 783 BM590_A0005 957 …… 输出: TMM标准化处理后的矩阵(Matrix)。 示例: T4 T5 T6 T7 T8 T9 BM590_A0001 390.11 379.54 386.52 288.73 372.47 327.73 BM590_A0002 350.06 310.51 328.78 175.32 249.21 210.62 BM590_A0003 222.52 219.54 209.39 174.45 97.20 240.38 BM590_A0004 406.46 494.13 414.62 825.09 2678.41 555.67 BM590_A0005 605.70 755.09 643.55 1184.73 2980.14 568.58 BM590_A0006 306.72 311.16 351.08 282.26 204.19 310.56 BM590_A0007 263.99 218.94 225.39 18.38 82.37 81.27 BM590_A0008 284.78 277.01 285.01 125.51 101.45 211.67 …… 分析模块引用了R语言(v3.2.3)edgeR包(v3.10.2)进行标准化处理(http://bioconductor.org/packages/release/bioc/html/edgeR.html)。 相关文献如下所示: Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140.
|