PCOA analysis and plot PCOA(主坐标分析)

PCoA分析,即主坐标分析(principal co-ordinates analysis),也是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或差异性,与PCA分析类似;主要区别在于,PCA基于欧氏距离,PCoA基于除欧氏距离以外的其它距离,通过降维找出影响样本群落组成差异的潜在主成分。

PCoA分析,首先对一系列的特征值和特征向量进行排序,然后选择排在前几位的最主要特征值,并将其表现在坐标系里,结果相当于是距离矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。



输入:

样本距离矩阵文件,由分析模块 "Generate distance matrix from OTU Table in biom format" 生成。

        Bio1 Bio2 Bio3 Bio4 Bio5

Bio1 0       0.1984      0.238883 0.222763 0.259351

Bio2 0.1984      0       0.127324 0.153768 0.160351

Bio3 0.238883 0.127324 0       0.194398 0.147496

Bio4 0.222763 0.153768 0.194398 0       0.20812

Bio5 0.259351 0.160351 0.147496 0.20812    0


样品分组信息表(可选):

Bio1 G1

Bio2 G1

Bio3 G1

Bio4 G1

Bio5 G2

Bio6 G2

Bio7 G2

Bio8 G3

Bio9 G3

Bio10        G3

其他参数默认。



输出:

pcoa_sites.txt:记录了样本在各个维度上的位置,其中Pco1为x轴,Pco2为y轴,依此类推。

pcoa_rotation.txt:记录了每个OTU对各主成分的贡献度。

pcoa_importance.txt:记录了各维度解释结果的百分比。如果PC1值为50%,则表示x轴的差异可以解释全面分析结果的50%。

pcoa_plot.pdf: PCoA图


示例:Multiple samples PCoA analysis


注:不同颜色或形状的点代表不同环境或条件下的样本组,横、纵坐标轴的刻度是相对距离,无实际意义。PC1、PC2分别代表对于两组样本微生物组成发生偏移的疑似影响因素,需要结合样本特征信息归纳总结,例如A组(红色)和B组(蓝色)样本在PC1轴的方向上分离开来,则可分析为PC1是导致A组和B组分开(可以是两个地点或酸碱不同)的主要因素,同时验证了这个因素有较高的可能性影响了样本的组成。

分析模块引用R语言(v2.12.1)中的PCoA统计和分析函数进行数据运算和做图。


相关文献如下所示:

Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.

Mardia, K. V., J. T. Kent, and J. M. Bibby (1979) Multivariate Analysis, London: Academic Press.

Venables, W. N. and B. D. Ripley (2002) Modern Applied Statistics with S, Springer-Verlag.