biopython Bio.SeqIO.parse()解析文件
介绍
函数Bio.SeqIO.parse()用于读取序列数据作为SeqRecord对象,实际上是返回一个SeqRecord对象的迭代器。这个函数需要两个参数,1)第一个参数是读取数据的句柄或文件名;2)第二个参数是一个小写字符串,指定序列格式,支持的格式list见http://biopython.org/wiki/SeqIO
代码示例
test.fasta内容如下:
>heavy
EVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAAGGYTDYADSVKGRFTISADTSKNTAYLQMNSLRAEDTAVYYCARESRVSFEAAMDYWGQGT
>light
DIQMTQSPSSLSASVGDRVTITCRASQDLATDVAWYQQKPGKAPKLLIYSASFLYSGVPSRFSGSGSGTDFTLTISSLQP
编写代码
from Bio import SeqIO
#fasta文件解析
for seq_record in SeqIO.parse("test.fasta","fasta"):
print(seq_record.id)
print(repr(seq_record.seq))
print(len(seq_record))
##GenBank文件解析,唯一的区别是改变上述代码的文件名和格式字符串
输出结果
heavy
Seq('EVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAA...QGT')
115
light
Seq('DIQMTQSPSSLSASVGDRVTITCRASQDLATDVAWYQQKPGKAPKLLIYSASFL...LQP')
80