FASTQ Summary Statistics(fastq数据统计)

分析模块输入,原始测序数据文件,FASTQ格式,生成测序结果统计报告。测序结果统计报告,可用于生成碱基分布图,和测序质量箱线图。

为方便测序数据的分析、发布和共享,Illumina测序得到的原始图像数据经过Base Calling转化为序列数据,即FASTQ格式的测序数据文件。FASTQ格式文件可记录所测读段(read)的碱基及其质量分数。

输入:

1FASTQ格式的原始测序数据文件。

示例:

设置原始数据质量值编码方式:1Solexa    2Illumina 1.3-1.7    3Sanger/Illumina 1.8+

注:Illumina测序平台,从左到右分别对应,极早期机器、早期机器,当前或以后机器。参数的默认值为 Sanger/Illumina 1.8+,对应目前国内测序公司主流测序仪。

关于FASTQ格式文件,参考维基百科:https://en.wikipedia.org/wiki/FASTQ_format

输出:

每个测序循环下所有reads碱基数和质量值统计表。

示例:

column     count        min  max sum  mean        Q1    med Q3    IQR  lW    rW    A_Count  C_Count  G_Count  T_Count  N_Count         Max_count

1       31892       15     35     1095136  34.3388937665        35.0 35.0 35.0 0.0    35     35     0       31891       1       0       0       31892

2       31892       15     35     1097903  34.4256553368        35.0 35.0 35.0 0.0    35     35     0       1       0       31891       0       31892

3       31892       15     35     1101478  34.5377524144        35.0 35.0 35.0 0.0    35     35     0       1       0       31891       0       31892

4       31892       15     35     1092792  34.2653957105        35.0 35.0 35.0 0.0    35     35     1       0       31891       0       0       31892

5       31892       15     35     1111570  34.8541954095        35.0 35.0 35.0 0.0    35     35     1       0       0       31891       0       31892

……

其中,从左到右,每一列含义,如下所示:

l  column = column number (1 to 36 for a 36-cycles read file). 循环数目。

l  count = number of bases found in this column. 该循环下碱基总数。

l  min = Lowest quality score value found in this column. 该循环下最低质量分数。

l  max = Highest quality score value found in this column. 该循环下最高质量分数。

l  sum = Sum of quality score values for this column. 该循环下质量分数求和。

l  mean = Mean quality score value for this column. 该循环下质量分数平均值。

l  Q1 = 1st quartile quality score. 该循环下质量分数第一四分位数。

l  med = Median quality score. 该循环下质量分数中位数。

l  Q3 = 3rd quartile quality score. 该循环下质量分数第三四分位数。

l  IQR = Inter-Quartile range (Q3-Q1). 质量分数,第三四分位数与第一四分位数距离。

l  lW = 'Left-Whisker' value (for boxplotting). boxplotting中上边缘值。

l  rW = 'Right-Whisker' value (for boxplotting). boxplotting中下边缘值。

l  A_Count = Count of 'A' nucleotides found in this column. 该循环下A碱基总数

l  C_Count = Count of 'C' nucleotides found in this column. 该循环下C碱基总数

l  G_Count = Count of 'G' nucleotides found in this column. 该循环下G碱基总数

l  T_Count = Count of 'T' nucleotides found in this column. 该循环下T碱基总数

l  N_Count = Count of 'N' nucleotides found in this column. 该循环下未知碱基总数