Extract DNA sequences(目标区域序列提取)

分析模块,输入bed区间信息文件和fasta序列文件,根据区间信息提取fasta文件中对应的序列信息。


输入:


1、fasta格式的序列文件。

>chr1

ATGCCTTCGCCATGTTGACGGGATCGTCCGCGACGGCAATCGCCGTATTCACTAACACCG

CGTCGGCCCCCATTTCCAGCGCCTGCGCGGCATGGCTGGGAACGCCGATGCCAGCATCGA

>chr2

……

>chr3

……


2、bed格式的区间信息文件。

chr1  2000         4000

chr2  13500       15000

chr3  23000       25000


输出:


根据bed区间提取的序列文件(fasta格式)。

示例:

>chr1:2000-4000

ATCGCCAGCCGCCAGTAATCGTTG

>chr2: 13500-15000

……

>chr3: 23000-25000

……



分析模块引用了bedtools v2-2.20.1软件中的getfasta命令进行序列的提取(http://bedtools.readthedocs.io/en/latest/)。


相关文献如下所示:

Quinlan AR and Hall IM, 2010. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26, 6, pp. 841–842.