blast formatdb 使用方法介绍
formatdb is an outdated software tool in molecular bioinformatics to format protein or nucleotide databases for BLAST. It has been replaced by the tool makeblastdb and the NCBI "strongly encourage[s]" users to stop using formatdb.
The formatdb.exe program is part of the BLAST release, which can be found here:
ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.18
在对核苷酸或蛋白质序列数据库进行Blast搜索之前,必须要对所使用的序列数据库进行formatdb, 即对序列数 据库进行格式化,这是所有使用BLAST所必须的一步。
格式化序列数据库— —formatdb
formatdb 简单介绍
formatdb处理的都是格式为 ASN.1和 FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。
formatdb 命令行参数
它可以根据我们的想法把源数据库格式化
主要参数的说明
-i 输入需要格式化的源数据库名称 Optional
-p 文件类型,是核苷酸序列数据库,还是蛋白质序列数据库
T – protein F - nucleotide [T/F] Optional
default = T
-a 输入数据库的格式是ASN.1(否则是FASTA)
T - True, F - False. [T/F] Optional
default = F
-o 解析选项
T - True: 解析序列标识并且建立目录
F - False: 与上相反
[T/F] Optional default = F
formatdb命令的参数说明
参数 | 说明 | 值 | 默认值 | 备注 |
-t | 数据库的标题【可选】 | 字符 | ||
-i | 需要创建数据库的文件名 | 文件名 | ||
-l | 日志文件名 | 文件名 | formatdb.log | |
-p | 文件数据类型 | [T/F] | T | T – 蛋白质F – 核苷酸 |
-o | 解析选项 | [T/F] | F | T表示解析序列文件并产生索引文件,F则不解析 |
-a | 数据库文件是否为ASN.1格式 | [T/F] | F | T为是ASN.1格式 |
-b | ASN.1的模式 | [T/F] | F | T为二进制,F为文本模式 |
-e | ASN.1数据库的序列数 | [T/F] | F | T表示数据库中只有一条序列 |
-n | 重命名数据库文件的名称 | 字符窜 | ||
-v | 数据库卷的大小 | 整数 | 0 | 单位:兆字符 |
-s | 限制索引的类型 | [T/F] | F | T为仅用接收号创建索引 |
-L | 创建数据库别名 | 输出文件名 | ||
-F | Gi列表的文件名 | 输入文件 | 配合-L使用 | |
-B | 生成的Gi二进制的文件名 | 输出文件 | 配合-F使用 |
示例:
formatdb -i uniref100.fasta -n uniref100 -t uniref100 -l uniref100.log -p T
formatdb -i uniref90.fasta -n uniref90 -t uniref90 -l uniref90.log -p T
formatdb -i uniref50.fasta -n uniref50 -t uniref50 -l uniref50.log -p T
ftp://ftp.ncbi.nih.gov/blast/documents/formatdb.html
http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/formatdb_fastacmd.html
http://en.wikipedia.org/wiki/Formatdb
http://boyun.sh.cn/bio/?p=1483
http://code.google.com/p/mass-spec-gui/downloads/detail?name=formatdb.exe&can=2&q=
========================================================================================
BLAST+ 中包含的 makeblastdb 参数详解
与以前的Blast相以,我们还是从格式化数据库到比对开始
一般我们是有一个fasta文件用来格式化数据库,以前的命令是formatdb,现在是makeblastdb
一般用到的格式如下:
makeblastdb -in input_file -dbtype molecule_type -title database_title -parse_seqids -out database_name -logfile File_Name
-in 后接输入文件,你要格式化的fasta序列
-dbtype 后接序列类型,nucl为核酸,prot为蛋白
-title 给数据库起个名(不能用在后面搜索时-db的参数)
-parse_seqids 推荐加上,现在有啥原因还没搞清楚
-out 后接数据库名,自己起一个有意义的名字,以后blast+搜索时要用到的-db的参数
-logfile 日志文件,如果没有默认输出到屏幕
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/ (download Blast+)
http://www.ncbi.nlm.nih.gov/books/NBK1763/
http://hi.baidu.com/lidaof/blog/item/fb4569cfc2011931f9dc612f.html
http://nebc.nox.ac.uk/bioinformatics/docs/makeblastdb.html