Make Distance Boxplots(组间距离关系盒形图)

将不同分类或环境的多组样本的距离进行四分位计算,比较不同样本组的组内和组间的距离分布差异。同时进行two-sample t-tests判断样本组间的显著性差异。

箱式图的作用:识别数据异常值;粗略估计和判断数据特征;比较几批数据的形状,同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息一目了然。

箱线图(Boxplot)也称箱须图(Box-whisker Plot,是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。简单箱线图由五部分组成,分别是最小值、中位数、最大值和两个四分位数。

输入:

样本距离矩阵

示例:distance matrix

         Bio1 Bio2 Bio3 Bio4 Bio5

Bio1 0.0    0.483232790448      0.728662546493      0.652673920891      0.88918523617      

Bio2 0.483232790448      0.0    0.644148006987      0.541510920158      0.868933369893

Bio3 0.728662546493      0.644148006987      0.0    0.655220559361      0.871789401126

Bio4 0.652673920891      0.541510920158      0.655220559361      0.0    0.887469388959

Bio5 0.88918523617        0.868933369893      0.871789401126      0.887469388959      0.0

样品分组信息表:

Bio1 G1

Bio2 G1

Bio3 G1

Bio4 G1

Bio5 G2

Bio6 G2

Bio7 G2

Bio8 G3

Bio9 G3

Bio10        G3

输出:

样本距离箱线分析图:


注:第一四分位数 (Q1),又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数 (Q3),又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

分析模块引用了Qiimev1.9.0)中的make_distance_boxplots.py脚本。

相关文献如下所示:

Abrahamsson T.R., Jakobsson H.E., Andersson A.F., Bjorksten B., Engstrand L., Jenmalm M.C. Low diversity of the gut microbiota in infants with atopic eczema. (2012) Journal of Allergy and Clinical Immunology, 129(2).

QIIME allows analysis of high-throughput community sequencing data J Gregory Caporaso, Justin Kuczynski, Jesse Stombaugh, Kyle Bittinger, Frederic D Bushman, Elizabeth K Costello, Noah Fierer, Antonio Gonzalez Pena, Julia K Goodrich, Jeffrey I Gordon, Gavin A Huttley, Scott T Kelley, Dan Knights, Jeremy E Koenig, Ruth E Ley, Catherine A Lozupone, Daniel McDonald, Brian D Muegge, Meg Pirrung, Jens Reeder, Joel R Sevinsky, Peter J Turnbaugh, William A Walters, Jeremy Widmann, Tanya Yatsunenko, Jesse Zaneveld and Rob Knight; Nature Methods, 2010; doi:10.1038/nmeth.f.303