利用毒株的accession号,批量下载fasta格式的文件

一、安装好Entrez Driect

见:http://www.cnblogs.com/lmt921108/p/8087474.html

二、在NCBI官网找到需要下载的文件的accession号

二.创建bash脚本文件

1.下载全基因组fasta序列(get_comseq.sh)

 1 #!/bin/bash
 2 
 3 cat $1 | while read line
 4 do
 5 efetch -db nucleotide -id $line -format fasta > $line.fasta
 6 done
 7 
 8 #利用bash的for循环实现fasta文件的批量下载
 9 #局限,需要知道毒株的acession号
10 #代码解释,第三行:逐行读取文件,得到变量line--保存了每行文件的内容。

运行:bash  get_comseq.sh  accession.txt

2.下载各个区段的碱基序列(get_genecds.sh)

1 #!/bin/bash
2 
3 cat $1 | while read line
4 do
5 efetch -db nucleotide -id $line -format gene_fasta > gene$line.fasta
6 done

运行:bash   get_genecds.sh   accession.txt

3.下载各个区段的氨基酸序列(get_protcds.sh)

1 #!/bin/bash
2 
3 cat $1 | while read line
4 do
5 efetch -db nucleotide -id $line -format fasta_cds_aa  > cds$line.fasta
6 done

运行:bash  get_protcds.sh   accession.txt

四、accession文件格式

AB007451.1
AB022288.1
AB022289.1
AB548618.1
AB548619.1

一行只能有一个号

 

posted @ 2017-12-28 16:36  遗世独立的愚公  阅读(1776)  评论(0编辑  收藏  举报