Subcluster Expression Analysis(子表模式、时序分析)

分析模块,输入差异基因FPKM矩阵,对差异基因进行聚类。根据选择的聚类算法将差异基因分为若干个cluster,同一cluster中的基因在不同的处理条件下具有相似的表达水平变化趋势。用于研究不同发育时期,或不同时间节点,具有相似功能基因集(cluster)的表达模式变化趋势。

分析模块默认对fpkm进行log2(fpkm+1) – median(log2(fpkm+1))变换,其中median(log2(fpkm+1))为一行中fpkm取对数之后的中位数;差异基因距离计算方式为欧式距离;差异基因聚类方法为H-clustercomplete)。cluster划分,基于层次聚类结果最高高度的50%为准则。如下图的第二根红线(50%),将层次聚类结果划分为4cluster。第一根红线(80%),将层次聚类结果划分为2cluster

下图结果,先通过分析模块“Matrix Transpose”对差异基因FPKM矩阵进行转置,接着通过分析模块“Plot hcluster tree”生成差异基因聚类树状图。

示例:

划分cluster三种方法如下所示:

1define K clusters via k-means algorithmK),采用k-means算法,将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。

2cut tree into K clustersKtree),将层次聚类结果划分为预先定义的若干个cluster

3cut tree based on this percent of max(height) of treePtree),基于层次聚类结果最高高度的某个百分比为准则,将层次聚类结果划分为若干个cluster。如上所示,第二根红线(50%,默认),将层次聚类结果划分为4cluster。第一根红线(80%),将层次聚类结果划分为2cluster

输入:

差异基因FPKM矩阵(过滤FPKM矩阵中,非差异表达基因对应的行)。

!!不能使用包含非差异表达基因的原始FPKM矩阵。

示例:

        T4    T5    T6    T7    T8    T9

BM590_A0004         406.46      494.13      414.62      825.09      2678.41    555.67

BM590_A0005         605.70      755.09      643.55      1184.73    2980.14    568.58

BM590_A0015         382.41      435.68      435.09      667.24      1664.78    511.53

BM590_A0021         305.80      347.07      323.75      151.16      57.04        252.18

BM590_A0025         82.60        71.30        83.22        95.78        311.02      96.31

BM590_A0028         389.64      441.62      387.26      1020.02    5531.28    345.31

BM590_A0046         295.72      291.23      379.24      308.84      92.26        517.02

……

输出:

差异基因子表达模式分析HTML结果(链接每个cluster表达模式分析结果)。

示例:

关于HTML链接的文件内容和格式。

*.matrix.txt文件,为对应cluster内差异基因的FPKM变换后的矩阵,示例如下所示:

        T4    T5    T6    T7    T8    T9

BM590_A0004         -0.749457501583235       -0.468308574684485       -0.720850860071982       0.27018302771744         1.9677275126291    -0.299293604006831

BM590_A0005         -0.596221339387686       -0.278646677124906       -0.508912372925508       0.370498978458865         1.70058757274979 -0.687306161770556

BM590_A0015         -0.618815217439915       -0.431126725920521       -0.433077274641915       0.182663160221544         1.50042278812682 -0.200066730346016

BM590_A0025         -0.355251237014787       -0.564758532144552       -0.344591303813938       -0.144045240106233         1.54481242214129 -0.136166109061779

BM590_A0028         -0.867949808088259       -0.687720849687327       -0.876766408122956       0.518149730081767         2.95601277979255 -1.04172544397578

BM590_A0052         -0.583832994248541       -0.916536798830829       -0.798661563770105       0.95883967448685         1.51888954715657 -0.178697864793941

*.pdf文件,为cluster表达趋势折线图,示例如下所示:

注:横坐标为各比较样本组,纵坐标为基因在该组样本中的表达量。图中每一条线表示一个基因,蓝色的线表示该cluster中所有基因的表达量平均值。每张图展示一种类型的表达模式,即体现这组基因表达量变化的趋势。

通常,会把样本按时间,或发育时期进行排序。表达模式一直向上,一直向下,或只有一个转折点的结果具有生物学意义。

对输入的差异基因FPKM矩阵,可以先使用分析模块“Reorder Matrix columns”进行样本的重新排序。

后续,可以将同一个cluster内的差异基因进行GOKEGG富集分析,分析cluster内差异基因行使的具体功能。分析结果通过分析模块“Batch Mode: Retrieve Genes list”处理之后,提供给富集分析批处理模块。

分析模块引用R语言(v3.2.1)中的kmeans函数进行k-means聚类,cor函数进行相关系数计算,dist函数进行距离计算,hclust函数进行差异基因间的层次聚类,cutree函数进行层次聚类结果的划分。