Annotate Variation V3(V3版本变异检测结果注释)

分析模块,输入vcf格式的变异信息文件,和对应的基因组注释数据库进行注释,输出注释后的变异结果。

关于VCF格式的详细介绍,参考:(http://www.1000genomes.org/wiki/Analysis/variant-call-format/)。


输入:


vcf格式的变异信息文件(必须输入由GATK生成的VCF文件)。

示例:

#CHROM          POS  ID     REF ALT QUAL       FILTER    INFO         FORMAT sample1

chr1  941119     .        A      G      59.74        . AC=2;AF=1.00;AN=2;DP=3;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=19.91;SOR=1.179         GT:AD:DP:GQ:PL    1/1:0,3:3:6:87,6,0

chr1  944296     .        G      A      57.74        . AC=2;AF=1.00;AN=2;DP=2;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=28.87;SOR=2.303         GT:AD:DP:GQ:PL    1/1:0,2:2:6:85,6,0

chr1  944307     .        T       C      51.74        . AC=2;AF=1.00;AN=2;DP=2;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=25.87;SOR=2.303         GT:AD:DP:GQ:PL    1/1:0,2:2:6:79,6,0

chr1  948245     .        A      G      51.74        . AC=2;AF=1.00;AN=2;DP=2;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=25.87;SOR=2.303         GT:AD:DP:GQ:PL    1/1:0,2:2:6:79,6,0

chr1  952180     .        A      C      104.28      . AC=2;AF=1.00;AN=2;DP=5;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=2;MLEAF=1.00;MQ=60.00;MQ0=0;QD=20.86;SOR=1.022         GT:AD:DP:GQ:PL    1/1:0,5:5:9:132,9,0


输出:


注释后的变异信息文件(仅输出第一个样本的碱基型和对应的碱基深度信息)。

示例:

#CHROM          POS  REF ALT QUAL       GENOTYPE      DEPTH     A_DEPTH         T_DEPTH         C_DEPTH         G_DEPTH         Region      Genes        Annotation       Mutation

chr1  941119     A      G      59.74        G/G  3       0       0       0       3       intergenic HES4(dist=5567),ISG15(dist=7728) -        -

chr1  944296     G      A      57.74        A/A  2       2       0       0       0       intergenic HES4(dist=8744),ISG15(dist=4551) -        -

chr1  944307     T       C      51.74        C/C  2       0       0       2       0       intergenic HES4(dist=8755),ISG15(dist=4540) -        -

chr1  948245     A      G      51.74        G/G  2       0       0       0       2       upstream  ISG15       -        -

chr1  952180     A      C      104.28      C/C  5       0       0       5       0       intergenic ISG15(dist=2261),AGRN(dist=3323)         -        -

-

注,输出文件的格式介绍如下所示:

CHROM 和 POS:变异所在的参考序列名称,和对应的坐标。如果突变类型是InDel,位置是REF中第一个碱基对应的位置。(与输入的VCF文件一致)。

REF 和 ALT:参考序列的碱基型,和所有变异的碱基型。其中,多个ALT碱基型用逗号隔开。(与输入的VCF文件一致)。

QUAL:突变的质量值信息(phred-scaled)(与输入的VCF文件一致)。

GENOTYPE:第一个样品的碱基型信息。

A_DEPTH:第一个样品对应的A碱基深度信息。

T_DEPTH:第一个样品对应的T碱基深度信息。

C_DEPTH:第一个样品对应的C碱基深度信息。

G_DEPTH:第一个样品对应的G碱基深度信息。

Region:突变所在位置的类型。如:外显子、内含子、基因间区等。

Genes:突变所在位置的基因名称。如果在基因间区,给出最近相邻的两个基因名称。

Annotation:突变在外显子区域,对氨基酸编码的影响。如:同义突变、非同义突变、移码突变、非移码突变等。

Mutation:突变对核苷酸和氨基酸编码改变的详细信息。

注,如果ALT有两个或以上的变异碱基型,则在后续的列追加对应的注释信息。



分析模块引用了ANNOVAR v2016Feb01软件(http://annovar.openbioinformatics.org/en/latest/)。


相关文献如下所示:

Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010

Chang X, Wang K. wANNOVAR: annotating genetic variants for personal genomes via the web Journal of Medical Genetics, 49:433-436, 2012

Yang H, Wang K. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR Nature Protocols, 10:1556-1566, 2015