GATK DepthOfCoverage(GATK方法统计目标区域深度覆盖度)

分析模块,封装了GATK的 DepthOfCoverage 命令,输入按坐标排序过的bam比对结果文件、参考序列文件、bed区间信息文件,统计bed文件中,目标区间内比对结果的深度和覆盖度信息。

关于SAM/BAM格式的介绍,参考分析模块 "Map with BWA" 的帮助文档,或者参考:(https://samtools.github.io/hts-specs/SAMv1.pdf)。

关于BED格式的介绍,参考:(http://asia.ensembl.org/info/website/upload/bed.html)。


输入:


1、fasta格式的参考序列文件。


2、坐标排序过的bam比对结果文件。


3、bed区间信息文件。

示例:

chr1  2000         4000

chr2  13500       15000

chr3  23000       25000


输出:


bed文件内,每个区间比对结果的深度和覆盖度信息。

示例:

Target        total_depth       average_depth %_above_0      %_above_1      %_above_5      %_above_10    %_above_15

ecoli_section:2001-4000  287685     143.84      100.0        100.0        100.0        100.0        100.0

ecoli_section:13501-15000       219340     146.23      100.0        100.0        100.0        100.0        100.0

ecoli_section:23001-25000       294815     147.41      100.0        100.0        100.0        100.0        100.0

注:

追加的第二列为,bed区间内比对上的碱基总数。

追加的第三列为,bed区间内碱基的平均深度。

追加的后续列为,深度在对应阈值之上的碱基覆盖度。



分析模块引用了GATK v3.5-g36282e4软件的DepthOfCoverage 功能进行目标区域深度和覆盖度的统计(https://software.broadinstitute.org/gatk/)。


相关文献如下所示:

The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA, 2010 GENOME RESEARCH 20:1297-303

A framework for variation discovery and genotyping using next-generation DNA sequencing data DePristo M, Banks E, Poplin R, Garimella K, Maguire J, Hartl C, Philippakis A, del Angel G, Rivas MA, Hanna M, McKenna A, Fennell T, Kernytsky A, Sivachenko A, Cibulskis K, Gabriel S, Altshuler D, Daly M, 2011 NATURE GENETICS 43:491-498

From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline Van der Auwera GA, Carneiro M, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M, 2013 CURRENT PROTOCOLS IN BIOINFORMATICS 43:11.10.1-11.10.33