生信软件使用简介

一、Blast:序列比对

①建库。db.seq是要用于建库的序列文件;-p设置建立的数据库类型,T蛋白质,F核酸,根据db.seq的序列类型选择。

formatdb -i db.seq -p [ T | F ]

②比对

blastall -p [数据库类型,包括blastp、blastn、blastx、tblastn、tblastx] -d [前一步建立的数据库名称的前缀]

 -i [查询序列文件]  -m [输出格式,如8]  -e [设置期望值用于筛选结果,如1e-8]  -o [设置输出文件]


二、bowtie2bowtie的主要区别是:bowtie用于测序长度小于50bp的比对,bowtie2用于大于50bp的比对。

这里以bowtie2为例:

①建库:ref.fa为参考序列,即要用于建库的序列文件;db.ebwt是设置输出文件的前缀

bowtie2-build ref.fa db.ebwt

②比对:db.ebwt是上步提到的文件前缀;seq.fq是要用于比对到库中的序列文件,fastq格式;seq.sam是设置输出文件的名称,只能是sam格式。

bowtie2 -x db.ebwt -u seq.fq -S seq.sam


三、SOAPdenovo对一个或多个文库组装

运行该软件占用内存大,建议到内存较大的节点运行。

配置文件:

max_rd_len:最大测序深度

ave_ins:插入片段大小

小文库(<1k)中reverse_seq=0,asm_flags=3

rank:文库计数

组装得到的基因组文件为*.scafSeq


四、Allpath:组装

1、在介绍Allpath组装前先介绍一个组装流程:

①文库大于8k:不用10k、15k、17k数据进行Allpath→加入10k、15k、17k数据进行SSPACE→将所有数据用Gapcloser补gap

②文库小于8k:Allpath→Gapcloser

2、配置文件:

①in_groups.csv每列表示:测序数据路径(?代表1和2,即表示序列1和序列2),文库名,组名;对于≤500bp的文库,组名=frag_文库大小;>500bp即>1k的文库,组名=jump_文库大小

②in_lib.csvpaired:双端设为1,单端设为0;frag_stddev可设为frag_size的10%;insert_stddev同理,意味片段大小的波动区间;read_orientation:小文库设为inward,大文库设为outward;最后两列一般不改。

③prepare.sh

文件中第7、10、18行需修改物种名称及日期;第15行表示大文库中的最小插入片段,若为小文库,则注释掉该行;第16行根据测序文件(fq格式)内容确定,较简易的方法是:若文件中第4行含有数字,则phred=33,即PHRED_64=False,否则phred=64,即PHRED_64=True。

④assemble.sh

第8、11、17行需修改物种名称及日期;第15行中,杂合率>0.25时,HAPLOIDIFY =False,否则为True(对于将0.25作为分界点,参考:https://groups.google.com/a/broadinstitute.org/forum/?hl=en&fromgroups=#!searchin/allpaths-user-forum/haploid/allpaths-user-forum/Y5HIpMaIp6I/mGJHgfM7Vx4J)。