学习笔记——@生物信息学格式

生物信息学中常见的格式主要有Fasta,Fastq,SRA,GFF,GTF,SAM,BAM,BED,BedGraph,Wig,BigWig,VCF等,  下面我对各个格式的学习笔记整理如下:


Fasta,Fastq

fasta格式是最基本的表示序列信息的格式。是一种文本格式,一般以后缀.fa或者或者.fasta
主要由两部分组成:

第一部分: 以>符号开头,是序列的定义行,后面跟着序列的名称或者标识,然后空格后是序列的描述信息

如上面gi|187608668|ref|NM_001043364.2|为该序列名称, Bombyx mori moricin (Mor), mRNA则是描述信息,所有来自NCBI的都有一个gi号,序列名称里的其他内容可以参考这个网站http://boyun.sh.cn/bio/?p=1192


第二部分:就是序列,可以使碱基序列也可以是氨基酸序列


Fastq格式同样是以文本形式来储存序列信息的格式,后缀通常位.fq或者.fastq,最早有Sanger机构开发,目前大多数NGS高通量测序的标准下机格式就是FASTQ。其序列以及质量信息都是使用一个ASCII字符标示


fastq格式文件中一个完整的单元分为四行,每行的含义如下:

第一行: 以@开头,内容同fasta的描述行类似

第二行:具体的碱基序列

第三行:以+开头,后面的内容可以和第一行类似,也什么都没有只留+

第四行:以ASCII字符集(分数)编码来表示对应碱基的测序质量详细说一下!Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量,既-10lgP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在第四行中该碱基对应的质量代表值即为“?”,ASCii参考如图。一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。以上是sanger中心采用记录read测序质量的方法,Illumina起初没有完全依照sanger中心的方法来定义测序质量,而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。

同样在NCBI里下载的fastq一般以SRR开头,这个后面在SRA部分详解。


FASTA和FASTQ格式相互转换,可以自己写代码,给出两个大神的代码http://yixf.name/2011/02/22/%E6%8A%8Afasta%E5%BA%8F%E5%88%97%E6%96%87%E4%BB%B6%E5%92%8Cqual%E8%B4%A8%E9%87%8F%E6%96%87%E4%BB%B6%E5%90%88%E5%B9%B6%E6%88%90fastq%E6%96%87%E4%BB%B6/和http://liucheng.name/868/

也可以使用FASTX-Toolkit,附软件下载地址http://hannonlab.cshl.edu/fastx_toolkit/index.html


SRA

sra是NCBI推出的存储高通量数据的格式,只是一个压缩数据的标准,没有软件能够直接分析SRA格式的数据,所有一般我们要把SRA格式的数据转换为FASTQ,可以使用SRAtoolkit的fastq-dump,可以在ncbi官方网站下载,这里面包含一系列的转换工具。下载地https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=std


具体用法

单端测序

fastq-dump XXX.sra

双端测序

fastq-dump --split-files XXX.sra

转化成fasta

fastq-dump --fasta XXX.sra

454数据转化

sff-dump XX.SRA 454数据基本没见过,转化成的SFF文件是二进制可以转化位fasta文件sffinfo软件即可


SAM格式

在生物信息学中尤其是高通量测序数据分析中,大部分的操作都是在实现短片段序列与参考序列的比对(mapping),比对的结果输出往往就是SAM格式(Sequence Alignment/Map),可以参考https://samtools.github.io/hts-specs/SAMv1.pdf,里的解释

SAM文件由两部分组成:头部区和主体区