Annotate Variation(变异检测结果注释)

分析模块,输入vcf格式的变异信息文件,和对应的基因组注释数据库进行注释,输出注释后的变异结果。

关于VCF格式的详细介绍,参考:(http://www.1000genomes.org/wiki/Analysis/variant-call-format/)。


输入:


vcf格式的变异信息文件。

示例:

#CHROM          POS  ID     REF ALT QUAL       FILTER    INFO         FORMAT NA00001 NA00002 NA00003

16     50745926         rs2066844         C      T       80     PASS         NS=3;DP=14;AF=0.5;DB;H2   GT:GQ:DP:HQ 0|0:48:1:51,51         1|0:48:8:51,51 1/1:43:5:.,.

20     14370       rs6054257         G      A      29     PASS         NS=3;DP=14;AF=0.5;DB;H2   GT:GQ:DP:HQ 0|0:48:1:51,51         1|0:48:8:51,51 1/1:43:5:.,.

20     17330       .        T       A      3       q10  NS=3;DP=11;AF=0.017    GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3      0/0:41:3

20     1110696  rs6040355         A      G,T   67     PASS         NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27         2|1:2:0:18,2      2/2:35:4

20     1230237  .        T       G      47     PASS         NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2

20     1230288  .        T       .        50     PASS         NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2

20     1234567  microsat1 GTCT       G,GTACT 50     PASS         NS=3;DP=9;AA=G   GT:GQ:DP         0/1:35:4   0/2:17:2   1/1:40:3


输出:


注释后的变异信息文件。

示例:

CHROM   POS  REF ALT NA00001 NA00002 NA00003          Region      Genes        Annotation       Mutation

16     50745926         C      T       0|0    1|0    1/1   exonic       NOD2       nonsynonymous SNV         NOD2:NM_001293557:exon3:c.C2023T:p.R675W,NOD2:NM_022162:exon4:c.C2104T:p.R702W,

20     14370       G      A      0|0    1|0    1/1   intergenic NONE(dist=NONE),DEFB125(dist=53943)       -        -

20     17330       T       A      0|0    0|1    0/0   intergenic NONE(dist=NONE),DEFB125(dist=50983)       -        -

20     1110696  A      G,T   1|2    2|1    2/2   intronic     PSMF1     -        -        intronic     PSMF1     -        -

20     1230237  T       G      0|0    0|0    0/0   intronic     RAD21L1         -        -

20     1234567  GTCT       G,GTACT 0/1   0/2   1/1   intronic     RAD21L1         -        -        intronic     RAD21L1         -        -

注,输出文件的格式介绍如下所示:

CHROM POS:变异所在的参考序列名称,和对应的坐标。如果突变类型是InDel,位置是REF中第一个碱基对应的位置。(与输入的VCF文件一致)。

REF ALT:参考序列的碱基型,和所有变异的碱基型。其中,多个ALT碱基型用逗号隔开。(与输入的VCF文件一致)。

NA0001 NA0002 NA0000:对应样品的碱基型。两个数字中间用’/‘分开,这两个数字表示二倍体样品的碱基型。0 表示样品中有REF的等位碱基型,1 表示样品中有第1ALT的等位碱基,2表示样品中有第2ALT的等位碱基,以此类推。因此,0/0 表示样品中该位点为纯合,且与REF一致。 0/1 表示样品中该位点为杂合,有REF和第1ALT的碱基型。1/1 表示样品中该位点为纯合,均为第1ALT的碱基型。(与输入的VCF文件一致)

Region:突变所在位置的类型。如:外显子、内含子、基因间区等。

Genes:突变所在位置的基因名称。如果在基因间区,给出最近相邻的两个基因名称。

Annotation:突变在外显子区域,对氨基酸编码的影响。如:同义突变、非同义突变、移码突变、非移码突变等。

Mutation:突变对核苷酸和氨基酸编码改变的详细信息。

注,如果ALT有两个或以上的变异碱基型,则在后续的列追加对应的注释信息。



分析模块引用了ANNOVAR v2016Feb01软件(http://annovar.openbioinformatics.org/en/latest/)。


相关文献如下所示:

Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010

Chang X, Wang K. wANNOVAR: annotating genetic variants for personal genomes via the web Journal of Medical Genetics, 49:433-436, 2012

Yang H, Wang K. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR Nature Protocols, 10:1556-1566, 2015