biopython Bio.SeqIO.parse()解析文件

介绍

函数Bio.SeqIO.parse()用于读取序列数据作为SeqRecord对象,实际上是返回一个SeqRecord对象的迭代器。这个函数需要两个参数,1)第一个参数是读取数据的句柄或文件名;2)第二个参数是一个小写字符串,指定序列格式,支持的格式list见http://biopython.org/wiki/SeqIO

代码示例

test.fasta内容如下:

>heavy
EVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAAGGYTDYADSVKGRFTISADTSKNTAYLQMNSLRAEDTAVYYCARESRVSFEAAMDYWGQGT
>light
DIQMTQSPSSLSASVGDRVTITCRASQDLATDVAWYQQKPGKAPKLLIYSASFLYSGVPSRFSGSGSGTDFTLTISSLQP

编写代码

from Bio import SeqIO

#fasta文件解析
for seq_record in SeqIO.parse("test.fasta","fasta"): 
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

##GenBank文件解析,唯一的区别是改变上述代码的文件名和格式字符串

输出结果

heavy
Seq('EVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAA...QGT')
115
light
Seq('DIQMTQSPSSLSASVGDRVTITCRASQDLATDVAWYQQKPGKAPKLLIYSASFL...LQP')
80

 

posted @ 2023-03-17 21:25  yayagogogo  阅读(191)  评论(0编辑  收藏  举报