PCA analysis and plot PCA(主成分分析)

PCA分析(Principal Component Analysis)[1],即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。如样本组成越相似,反映在PCA图中的距离越近。不同环境间的样本可能表现出分散和聚集的分布情况,PCA结果中对样本差异性解释度最高的两个或三个成分可以用于对假设因素进行验证。

输入:

OTU Table文件:

OTU ID    Bio1 Bio2 Bio3 Bio4 Bio5 Bio6 Bio7 Bio8 Bio9 Bio10

OTU1        0       0       0       0       0       6       34     104  367  254

OTU2        52     335  18     49     0       0       0       0       0       0

OTU3        0       0       0       0       5       0       0       0       0       0

样品分组信息表(可选):

Bio1 G1

Bio2 G1

Bio3 G1

Bio4 G1

Bio5 G2

Bio6 G2

Bio7 G2

Bio8 G3

Bio9 G3

Bio10        G3

其他参数默认。

输出:

pca.sites.txt:记录了样本在各个维度上的位置,其中PC1x轴,PC2y轴,依此类推。

pca_rotation.txt:记录了每个OTU对各主成分的贡献度。

pca_importance.txt:记录了各维度解释结果的百分比。如果PC1值为50%,则表示x轴的差异可以解释全面分析结果的50%

pca_plot.pdf : PCA

示例:Multiple samples PCA analysis

注:PCA 分析图是基于每个样品中所含有的全部OTU 完成的,图中每个点代表了一个样本。两点之间在横、纵坐标上的距离,代表了样品受主成分(PC1 PC2)影响下的相似性距离;样本数量越多,该分析意义越大;反之样本数量过少,会产生个体差异,导致PCA分析成图后形成较大距离的分开。

分析模块引用R语言(v2.12.1)中的PCA统计和分析函数进行数据运算和做图。

相关文献如下所示:

[1] Yu Wang, Hua-Fang Sheng, et al. Comparison of the Levels of Bacterial Diversity in Freshwater, Intertidal Wetland, and Marine Sediments by Using Millions of Illumina Tags. Appl. Environ. Microbiol. 2012, 78(23):8264. DOI: 10.1128/AEM.01821-12.

Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.

Mardia, K. V., J. T. Kent, and J. M. Bibby (1979) Multivariate Analysis, London: Academic Press.

Venables, W. N. and B. D. Ripley (2002) Modern Applied Statistics with S, Springer-Verlag.