PCOA analysis and plot PCOA(主坐标分析)

PCoA分析,即主坐标分析(principal co-ordinates analysis),也是一种非约束性的数据降维分析方法,可用来研究样本的相似性或差异性,与PCA分析类似;主要区别在于,PCA基于欧氏距离,PCoA基于除欧氏距离以外的其它距离。PCoA分析,首先对一系列的特征值和特征向量进行排序,然后选择排在前几位的最主要特征值,并将其表现在坐标系里,结果相当于是距离矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。

输入:

1、样本距离矩阵文件,可由分析模块Generate distance matrix from fpkm matrix生成。

示例:

        T4    T5    T6    T7    T8    T9

T4    0       556.755292869315 548.144810678248 1840.00551404162 4595.29924214683 1500.48982692357

T5    556.755292869315 0       608.699577853257 1817.04805740656 4504.26458143164 1526.05178655135

T6    548.144810678248 608.699577853257 0       1768.22280076409 4633.56038886132 1354.17671707347

T7    1840.00551404162 1817.04805740656 1768.22280076409 0       3697.34366245185 1251.5445135536

T8    4595.29924214683 4504.26458143164 4633.56038886132 3697.34366245185 0       4612.87039733818

T9    1500.48982692357 1526.05178655135 1354.17671707347 1251.5445135536    4612.87039733818 0

2、样品分组信息表(可选)。

示例:

T4     group1

T5     group1

T6     group1

T7     group2

T8     group2

T9     group2

输出:

1pcoa_sites.txt:记录了样本在各个维度上的位置,用于作图的数据。对PC1PC2作散点图,则PC1x轴,PC2y轴。

2pcoa_rotation.txt:记录了对各主成分的贡献度。

3pcoa_importance.txt:记录了各维度解释结果的百分比。如果PC1值为50%,则表示PC1的差异可以解释全面分析结果的50%

4pcoa_plot.pdf: PCoA分析图

示例:

PCoA分析图(不提供分组文件)。

PCoA分析图(提供分组文件)。不同分组的样品以不同的颜色标识。

注:不同颜色或形状的点代表不同分组情况下的样品(由分组信息表提供)。横、纵坐标轴的刻度是相对距离,无实际意义。PC1PC2分别代表对于两组样本基因表达模式的可能影响因素,需要结合样本特征信息归纳总结,例如A组(红色)和B组(蓝色)样本在PC2轴的方向上分离开来,则可分析为PC2是导致A组和B组分开的因素(可以是两种不同的处理或两个不同的品种),同时验证了这个因素有较高的可能性影响了基因的表达模式。

分析模块引用R语言(v3.2.1)中的PCoA统计和分析函数进行数据运算和做图。