利用毒株的accession号，批量下载fasta格式的文件

一、安装好Entrez Driect

见：http://www.cnblogs.com/lmt921108/p/8087474.html

二、在NCBI官网找到需要下载的文件的accession号

二.创建bash脚本文件

1.下载全基因组fasta序列(get_comseq.sh)

 1 #!/bin/bash
 2 
 3 cat $1 | while read line
 4 do
 5 efetch -db nucleotide -id $line -format fasta > $line.fasta
 6 done
 7 
 8 #利用bash的for循环实现fasta文件的批量下载
 9 #局限，需要知道毒株的acession号
10 #代码解释，第三行：逐行读取文件，得到变量line--保存了每行文件的内容。

运行：bash get_comseq.sh accession.txt

2.下载各个区段的碱基序列(get_genecds.sh)

1 #!/bin/bash
2 
3 cat $1 | while read line
4 do
5 efetch -db nucleotide -id $line -format gene_fasta > gene$line.fasta
6 done

运行：bash get_genecds.sh accession.txt

3.下载各个区段的氨基酸序列（get_protcds.sh）

1 #!/bin/bash
2 
3 cat $1 | while read line
4 do
5 efetch -db nucleotide -id $line -format fasta_cds_aa  > cds$line.fasta
6 done

运行：bash get_protcds.sh accession.txt

四、accession文件格式

AB007451.1
AB022288.1
AB022289.1
AB548618.1
AB548619.1

一行只能有一个号

posted @ 2017-12-28 16:36 遗世独立的愚公阅读(1825) 评论(0) 编辑收藏举报

刷新页面返回顶部

爬行的乌龟

利用毒株的accession号，批量下载fasta格式的文件

公告