TMM scaling normalization for count matrix(TMM方法均一

分析模块,采用edgeR的TMM(trimmed mean of M-values)方法对测序片段计数矩阵(Count Matrix)进行标准化处理。

如果不提供基因的长度信息文件,将只进行TMM标准化处理。

如果提供基因的长度信息文件,将使用TMM方法将Count数据转换为FPKM数据,输出FPKM矩阵。

注:标准化处理之后的矩阵可用于PCA、热图、聚类分析等。


输入:


1、测序片段计数矩阵(Count Matrix)。

示例:

        T4    T5    T6    T7    T8    T9

BM590_A0001         565  505  843  286  247  1909

BM590_A0002         362  295  512  124  118  876

BM590_A0003         235  213  333  126  47     1021

BM590_A0004         291  325  447  404  878  1600

BM590_A0005         530  607  848  709  1194         2001

BM590_A0006         456  425  786  287  139  1857

BM590_A0007         21     16     27     1       3       26

BM590_A0008         282  252  425  85     46     843

……


2、基因长度信息文件(可选),其中第一列为基因名称、第二列为对应的序列长度。

示例:

BM590_A0001         1584

BM590_A0002         1131

BM590_A0003         1155

BM590_A0004         783

BM590_A0005         957

……


输出:


TMM标准化处理后的矩阵(Matrix)。

示例:

        T4    T5    T6    T7    T8    T9

BM590_A0001         390.11      379.54      386.52      288.73      372.47      327.73

BM590_A0002         350.06      310.51      328.78      175.32      249.21      210.62

BM590_A0003         222.52      219.54      209.39      174.45      97.20        240.38

BM590_A0004         406.46      494.13      414.62      825.09      2678.41    555.67

BM590_A0005         605.70      755.09      643.55      1184.73    2980.14    568.58

BM590_A0006         306.72      311.16      351.08      282.26      204.19      310.56

BM590_A0007         263.99      218.94      225.39      18.38        82.37        81.27

BM590_A0008         284.78      277.01      285.01      125.51      101.45      211.67

……



分析模块引用了R语言(v3.2.3)edgeR包(v3.10.2)进行标准化处理(http://bioconductor.org/packages/release/bioc/html/edgeR.html)。


相关文献如下所示:


Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140.