GenBank格式
一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。
GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
这一章描述GenBank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。关于序列数据库,前人已经作了大量的工作,具体可参见(Schuleret al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; Georgeet al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。核苷酸序列是查询核苷酸数据库以及蛋白质数据库时的主要出发点,并且目前有一种趋势,将核苷酸数据库介入到蛋白质数据库的管理之中(正如我们下面将要看到的那样)。这并不奇怪,因为数据库维护者与数据提交者之间的直接通讯将有利于保证数据的真实性与准确性(提交者需要一个检索号,并且他们想要得到他们添加到数据库中的新记录)。在很多情况下,这种对数据的关注意味着提供适当的信息来注释CDS(coding sequence:编码序列),并告诉我们如何得到翻译产物。这种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的Entrez之中,在GenBank的管理之中,以及在GenPept格式记录的生成过程之中。在欧洲,EBI的工作人员统一维护管理Swiss-Prot和TREMBL,这些工作人员也负责EMBL核苷酸数据库的管理工作。还有Amos Bairoch和他在日内瓦大学的研究组。(见本章后的列表)。尽管如此,建立核苷酸和蛋白质数据库的初衷还是有区别的。本章还初步讨论了将在第六章详细描述的数据模型。这一章主要是从GenBank flatfile的角度介绍序列数据,但必须明确的是,“flatfile”(不论是GenBank, EMBL, Swiss-Prot或PIR),都只是ASN.1报告的一个方面。而ASN.1才是代表了NCBI数据模型的语言。GenBank以DNA为核心,包含了许多计算生物学资源。
历史上,蛋白质数据库先于核苷酸数据库。在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoff et al., 1965)。这一蛋白质数据库后来成为PIR(George et al., 1997)。这本书为今天整个生物信息学界日常工作所依赖的计算生物学资源播下了种子。这个在1965年可以很容易地存放在一张软盘上的数据集(尽管那时并不存在软盘这种存储介质),是一小群人多年的工作成果。今天,任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。最早的DNA序列数据库于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。(见图2.1)。R. Cook-Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。两个中心都致力于发展输入方式,这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。在1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收集直接提交的数据,并在三者之间发布。这样,任何一个中心都拥有并发布所有的序列数据。这种方式下每条记录只被生成这条记录的数据库所拥有,也就是说只有生成这条记录的数据库可以对记录进行更新,这就防止了“更新冲突”。否则如果每个数据库都可以修改任一条记录,并覆盖其他数据库的数据,就必定会发生错误。近年来的安排保证了没有一个数据库可以覆盖其他数据库更新的记录。所有的序列数据库也都是计算生物学中心,并且越发表明序列数据不能简单地由自动化方式来生成。每个数据库都成为了一个中心,在那里生成序列数据,并由生物学家进行验证,同时还开发一些利用这些信息的工具(例如NCBI的Entrez,见第5章,以及EBI现在正在开发的SRS)。很明显的一点是一些专职的,介入到收集数据、提供发现与检索工具,并且作为研究机构来研究新算法、发掘公共数据库并在最高水平进行科学活动的机构将能够最大限度地服务于用户群体。在这一环境下,知识被最高效率地获取与共享,并且新的研究与理解这样大量数据的方法也不断涌现。
这一章的着重介绍GenBank核苷酸数据库,GenBank是包含了三个重要蛋白质数据库(Swiss-Prot, PIR和PDB)的一系列数据库中的一个。这一系列数据库中的每一个都对数据库现在和将来的使用方法产生了或产生过重大影响。PDB是关于核酸和蛋白质结构的数据库,将在第三章中详细介绍。Swiss-Prot和PIR可以称为二级数据库,它比已经存在于一级数据库中的数据提供了更多的信息。Swiss-Prot和PIR中的蛋白质序列主要来源于核苷酸数据库,另外一小部分是直接向Swiss-Prot提交的(这些蛋白质是直接测序的)或者是从公开发表的论文中搜索到的。这里没有详细讨论这些情况,我们建议读者通过其他途径了解更多的详情(Bairoch and Apweiller, 1997; George et al., 1997)。
需要注意的是,如同在第六章和第十四章中一样,这里的“GenBank”指的是DDBJ/EMBL/GenBank。DDBJ和EMBL核苷酸数据库与GenBank紧密合作,逐日交换数据。他们从不同的地点,用不同的格式发布同样的信息。他们也都是提供其他数据、工具和服务的研究机构。这些虽然从理论上是无关的活动,但实际上很难分开。例如,Entrez(见第5章)是NCBI的一个计划,它包含了GenBank数据在其中。但Entrez和GenBank(都是NCBI的产品)从本质上是不同的,前者是一个信息检索系统,而后者是一个Entrez从中进行检索的数据库。
一级和二级数据库
一级和二级数据库之间存在着本质的差别。序列数据库对科学界最重要的贡献就是这些序列本身。一级数据库记录了实验结果,以及一些初步的解释。而更进一步分析工作的结论只能从二级数据库中查找到。一级数据库中的核苷酸序列记录是从直接实验得到的,这些记录是对存在于某个实验室的试管中的生物分子测序的结果。它们不代表共有序列(虽然是多次读取同一克隆,或相同的基因来源),它们也不代表一些计算机生成的字符串。这在序列分析的解释中很重要,也意味着在大多数情况下一个给定的序列就是研究者所需要的全部。每一个这样的DNA或RNA序列都将被注释以描述对实验结果的分析,这一分析阐明了为什么这一序列会被这样确定。
在DNA序列记录中的一种常见的注释是编码序列(CDS)。大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。这在实验、计算以及相似性比对工作中占有很大的比重。这并行于赋予一个产物名称,或者功能说明(通过对相似性比对的分析)。这一方法很有效,但也有误导的可能。DNA,RNA和蛋白质序列都是计算分析工作的对象,它们是一级数据库中有价值的成分。
那些在DNA序列记录的基础上进行计算、分析或其他工作的研究者通常认为他们所处理的是原始信息。但是在很多情况下,氨基酸序列从某种程度上说是解释的结果,而并非是直接测序得到的。这样,在使用和说明由这些序列得到的结果时就需要格外小心。由mRNA序列数据推导出蛋白质序列通常并不难,但必须选择正确的启始编码子。对于原核生物或低等真核生物序列的注释通常相对简单,但研究者同样需要注意避免缺少注释或增加不必要的注释。(见第10章以及Cannon et al., 1997)。将序列标记为CDS通常需要格外小心,因为这是蛋白质数据库全自动或半自动生成的开始步骤。
格式与内容:计算机与人
数据库被用来存放原始数据,以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBank flatfile,见附录2.1和2.2,这是一种人可以阅读的ASN.1版本)。这些记录还有二进代码版,更加紧凑,计算机处理也更快。但不幸的是,由于历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。(但我们并未放弃尝试,见第3、6、14章)。GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和GBFF极大通用性的重要原因。
作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据:
>L04459
*******************
或同样的,一个蛋白质记录:
>P31373
*******************
FASTA格式广泛应用于许多分子生物学软件包之中。作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。标记符