GATK Unified Genotyper(SNP/InDels Caller,变异检测)

分析模块,利用GATK软件,输入fasta格式的参考序列文件(必须由分析模块 "BWA reference index" 的输出提供),输入坐标排序过的bam文件,进行突变信息(SNPs/InDels)的检测,生成对应的vcf文件。

关于VCF格式的详细介绍,参考:(http://www.1000genomes.org/wiki/Analysis/variant-call-format/)。


输入:


1、fasta格式的参考序列文件,必须由分析模块 "BWA reference index" 的输出提供。


2、经过坐标排序后的bam文件。


3、bed格式的区间信息文件(可选),提供的话,仅检测目标区域的突变信息。

chr1  2000         4000

chr2  13500       15000

chr3  23000       25000


输出:

保存SNPs/Indels变异信息的vcf文件。

示例:

#CHROM          POS  ID     REF ALT QUAL       FILTER    INFO         FORMAT          Sample_A1

ecoli_section     2088         .        T       C      1179.77    . AC=1;AF=0.500;AN=2;BaseQRankSum=1.223;DP=147;Dels=0.00;ExcessHet=3.0103;FS=0.609;HaplotypeScore=44.7762;MLEAC=1;MLEAF=0.500;MQ=58.03;MQ0=0;MQRankSum=-0.064;QD=8.03;ReadPosRankSum=-1.091;SOR=0.611  GT:AD:DP:GQ:PL    0/1:71,76:147:99:1208,0,1100

ecoli_section     2235         .        C      A      3004.77    . AC=2;AF=1.00;AN=2;BaseQRankSum=0.756;DP=143;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=42.8294;MLEAC=2;MLEAF=1.00;MQ=58.70;MQ0=0;MQRankSum=0.707;QD=21.16;ReadPosRankSum=1.561;SOR=0.307        GT:AD:DP:GQ:PL    1/1:1,141:143:99:3033,402,0

VCF格式说明如下所示:

CHROM 和 POS:变异所在的参考序列名称,和对应的坐标。如果突变类型是InDel,位置是REF中第一个碱基对应的位置。

ID:变异 ID。分析时若提供dbSNP对应的vcf文件,且dbSNP中有该SNP的ID,则会在此给出ID,若没有,则用’.‘表示其为一个全新的变异。如果没有提供dbSNP,用’.‘表示,无任何含义。

REF 和 ALT:参考序列的碱基型,和所有变异的碱基型。其中,多个ALT碱基型用逗号隔开。

QUAL:Phred格式(Phred-scaled)表示的变异质量值,用于表示变异的准确度,值越大,则变异的准确度越高。计算方法为:Phred值 = -10 * log (1-p),p为变异的准确率。通过计算公式可以看出,10对应准确率为90%,20对应准确率为99%,30对应准确率为99.9%

FILTER:通常情况下没有意义。一些软件生成的VCF文件,会输出一些字符用于表示变异是否可靠,比如用PASS表示变异通过了QC

INFO:与变异相关的信息,如深度、等位基因频率信息等,不同软件有不同的定义。具体信息和含义参考生成的VCF文件表头部分。

FORMAT 和Sample_A1:合起来提供了’Sample_A1‘这个样品的碱基型信息。’Sample_A1‘代表该名称的样品,是由BAM文件中,@RG下的 SM 标签决定。(注:在 "Map with BWA" 分析模块中,可设置样品名称,并保存到生成的比对结果文件中,默认是自动根据输入的原始数据文件名进行赋值)。群体变异结果(存在多个样品),则在后续追加对应样品的列。

GT:AD:DP:GQ:PL     0/1:71,76:147:99:1208,0,1100

这两列数据是对应的,前者为格式,后者为格式对应的数据。具体含义参考生成的VCF文件表头部分,详解如下所示:

GT:样品的碱基型。两个数字中间用’/‘分开,这两个数字表示二倍体样品的碱基型。0 表示样品中有REF的等位碱基型,1 表示样品中有第1个ALT的等位碱基,2表示样品中有第2个ALT的等位碱基,以此类推。因此,0/0 表示样品中该位点为纯合,且与REF一致。 0/1表示样品中该位点为杂合,有REF和第1个ALT的碱基型。1/1 表示样品中该位点为纯合,均为第1个ALT的碱基型。

AD:样品在该位点,每一种等位碱基的reads深度信息(Allelic depths for the ref and alt alleles in the order listed)。

DP:样品在该位点的总reads深度(Approximate read depth (reads with MQ=255 or with bad mates are filtered)

GQ:基因型的质量值(Genotype Quality)

PL: Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification。一般情况下,无需关注。



分析模块引用了GATK v3.5-g36282e4软件的UnifiedGenotyper功能进行变异检测(https://software.broadinstitute.org/gatk/)。


相关文献如下所示:

The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA, 2010 GENOME RESEARCH 20:1297-303

A framework for variation discovery and genotyping using next-generation DNA sequencing data DePristo M, Banks E, Poplin R, Garimella K, Maguire J, Hartl C, Philippakis A, del Angel G, Rivas MA, Hanna M, McKenna A, Fennell T, Kernytsky A, Sivachenko A, Cibulskis K, Gabriel S, Altshuler D, Daly M, 2011 NATURE GENETICS 43:491-498

From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline Van der Auwera GA, Carneiro M, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M, 2013 CURRENT PROTOCOLS IN BIOINFORMATICS 43:11.10.1-11.10.33