Draw quality score boxplot(原始数据质量分布图)

运用统计学的方法,对所有测序循环下所有reads的质量值进行统计,从宏观上直观地反应测序实验数据质量。

分析模块通过生成,测序质量值箱线图,直观地反应文库的测序质量。测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。通常序列5’端前几个碱基的错误率相对较高,随着测序的进行,酶的活性及其他物质的灵敏度也会下降,所以达到一定测序长度后,测序质量值也随之下降。

输入:

测序结果统计报告表,由分析模块 "FASTQ Summary Statistics" 生成。

示例:

column     count        min  max sum  mean        Q1    med Q3    IQR  lW    rW    A_Count  C_Count  G_Count  T_Count  N_Count         Max_count

1       31892       15     35     1095136  34.3388937665        35.0 35.0 35.0 0.0    35     35     0       31891       1       0       0       31892

2       31892       15     35     1097903  34.4256553368        35.0 35.0 35.0 0.0    35     35     0       1       0       31891       0       31892

3       31892       15     35     1101478  34.5377524144        35.0 35.0 35.0 0.0    35     35     0       1       0       31891       0       31892

4       31892       15     35     1092792  34.2653957105        35.0 35.0 35.0 0.0    35     35     1       0       31891       0       0       31892

5       31892       15     35     1111570  34.8541954095        35.0 35.0 35.0 0.0    35     35     1       0       0       31891       0       31892

6       31892       16     40     1234032  38.6940925624        39.0 39.0 40.0 1.0    38     40     31891       0       0       1       0       31892

…..

输出:

测序数据质量值箱线图。

说明:

1、黑色的水平线表示中位数。

2、红色长方形箱子为IQR,第三四分位数与第一四分位数距离。

3、边缘线表示超出1.5*IQR的异常值。

示例:

下图展示了,一个测序质量非常好的结果,在36次循环中,测序质量值中位数基本都是36

下图展示了,一个测序质量相对较好的结果,测序质量值中位数在末尾的时候下降。

下图展示了,一个测序质量很差的结果,测序质量值中位数快速下降。

分析模块引用了FASTX-Toolkit v0.0.13中的fastq_quality_boxplot_graph.sh脚本进行质量值箱线图的绘制(http://hannonlab.cshl.edu/fastx_toolkit/)。