PCA analysis and plot PCA(主成分分析)

PCA分析(Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。如样本基因表达模式越相似,反映在PCA图中的距离越近。在分析复杂的多维数据集的时候,如,不同实验条件下的转录组测序数据,表达谱芯片数据,以及蛋白组和代谢组数据。当变量的数目比样品的数目多时,PCA可以在不损失信息量的情况下将样品的维度最大程度地减少至样品数。

输入:

1FPKM矩阵(FPKM Matrix)。

示例:

        T4    T5    T6    T7    T8    T9

BM590_A0001         390.11      379.54      386.52      288.73      372.47      327.73

BM590_A0002         350.06      310.51      328.78      175.32      249.21      210.62

BM590_A0003         222.52      219.54      209.39      174.45      97.20        240.38

BM590_A0004         406.46      494.13      414.62      825.09      2678.41    555.67

BM590_A0005         605.70      755.09      643.55      1184.73    2980.14    568.58

BM590_A0006         306.72      311.16      351.08      282.26      204.19      310.56

……

2、样品分组信息表(可选)。

示例:

T4     group1

T5     group1

T6     group1

T7     group2

T8     group2

T9     group2

输出:

1pca.sites.txt:记录了样品在各个维度上的位置,用于作图的数据。对PC1PC2作散点图,则PC1x轴,PC2y轴。

2pca_rotation.txt:记录了每个基因对各主成分的贡献度。

3pca_importance.txt:记录了各维度解释结果的百分比。如果PC1值为50%,则表示PC1的差异可以解释全面分析结果的50%

4pca_plot.pdf : PCA分析图

示例:

PCA分析图(不提供分组文件)。

PCA分析图(提供分组文件)。不同分组的样品以不同的颜色标识。

注:PCA 分析基于每个样品中全部基因的表达信息,图中每个点代表了一个样本。两点之间在横、纵坐标上的距离,代表了样品受主成分(PC1 PC2)影响下的相似性距离;样本数量越多,该分析意义越大;反之样本数量过少,会产生个体差异,导致PCA分析成图后形成较大距离的分开。

分析模块引用R语言(v3.2.1)中的PCA统计和分析函数进行数据运算和做图。