Draw nucleotides distribution chart(原始数据碱基分布图)

运用统计学方法,统计每个测序循环下所有reads的碱基分布情况。分析模块通过生成碱基分布叠层直方图,直观地反应测序reads的碱基分布情况。

常规方式测序(如转录组,基因组)的前几个循环,ACGT的丰度有所波动,后面趋于稳定。一般情况下AT相等,CG相等,各碱基所含百分比会因物种的差异而不同,未知碱基所占百分比越低,说明测序文库质量越好。

输入:

测序结果统计报告表,由分析模块 "FASTQ Summary Statistics" 生成。

示例:

column     count        min  max sum  mean        Q1    med Q3    IQR  lW    rW    A_Count  C_Count  G_Count  T_Count  N_Count         Max_count

1       31892       15     35     1095136  34.3388937665        35.0 35.0 35.0 0.0    35     35     0       31891       1       0       0       31892

2       31892       15     35     1097903  34.4256553368        35.0 35.0 35.0 0.0    35     35     0       1       0       31891       0       31892

3       31892       15     35     1101478  34.5377524144        35.0 35.0 35.0 0.0    35     35     0       1       0       31891       0       31892

4       31892       15     35     1092792  34.2653957105        35.0 35.0 35.0 0.0    35     35     1       0       31891       0       0       31892

5       31892       15     35     1111570  34.8541954095        35.0 35.0 35.0 0.0    35     35     1       0       0       31891       0       31892

6       31892       16     40     1234032  38.6940925624        39.0 39.0 40.0 1.0    38     40     31891       0       0       1       0       31892

…..

输出:

测序数据碱基分布叠层直方图。

示例:

下图展示了,在测序reads 5' 端,加上GATCT barcode的情况。

下图展示了,在测序reads结果中,大部分的reads具有 TGATA TCGTA TTGAT GACTG AA...的序列值(在叠层直方图中比例高)。

说明测序结果具有序列偏向性,常见于扩增子测序,或大比例的测序reads有接头污染。

下图展示了,随着测序循环数的增加,未知碱基的含量随之增加,说明测序存在质量问题。

下图展示了,大部分情况下,叠层直方图看起来是随机的。

分析模块引用了FASTX-Toolkit v0.0.13中的fastx_nucleotide_distribution_graph.sh 脚本进行叠层直方图的绘制http://hannonlab.cshl.edu/fastx_toolkit/)。