第一章 生物信息学引论 东南大学 孙啸
1、《生物信息学》 孙啸 东南大学(课程讲义)
2、《生物信息学概论》 罗静初 北京大学 北京大学出版社
3、《生物信息学》(863高科技丛书) 赵国平 中科院上海生命科学院 科学出版社
4、《生物信息学—基因和蛋白质分析的使用指南》 李衍达 清华大学 清华大学出版社
5、《生物信息学手册》 郝柏林 中科院物理所 上海科学技术出版社
6、《简明生物信息学》 钟扬 复旦大学 高等教育出版社
第一章 生物信息学引论
第一节 引言
二十世纪是科学技术迅速发展的世纪,物理和化学的发展使我们可以清楚地认识物质的组成,从分子、原子、电子等各层次上深入地了解微观世界,而天文技术、空间技术的发展则使得我们可以了解地球以外的客观世界,以电子信息技术为龙头的工业技术的飞速发展,使得我们可以不断地改造世界,甚至为人类更加舒适地生活创造新的世界。生物科学在二十世纪同样也得到了发展,细胞学、遗传学、分子生物学等学科的发展使我们已经从组织、器官、细胞、生物大分子等各个层次认识了生命的物质基础。生物与其它物质有本质的区别,生命并非是简单的物质堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过程。目前我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知之甚少。既然牵涉到信息的组织、传递和表达,我们未尝不可用信息科学的方法和技术来分析和认识生命信息。
1、生物信息学概念
传统的生物学是一门实验科学,生物学研究依赖于对实验数据的处理和分析。生物学也是一门发现科学,通过实验发现新的现象、新的生物学规律,经过分析和归纳总结,提炼出新的生物学知识。在这个过程中,需要对实验数据进行处理和理论分析,在此基础上解释实验现象,认识实验现象发生的本质,探索固有的生物学规律,进而了解和掌握生命的物质基础和生命的本质。随着生物科学和技术的迅速发展,生物数据积累速度不断加快,对生物数据的科学分析方法和实用分析工具提出了更新、更高的要求。
人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。人类基因组计划顺利实施,产生了大量的生物分子数据。据权威机构统计,目前生物分子数据量每15个月翻一翻,生物分子数据发展的速度超过了摩尔定律(即半导体芯片上的晶体管数量每18个月翻一翻)。这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,是生物学家、数学家和计算科学家所面临的一个严峻的挑战。生物信息学就是为迎接这种挑战而发展起来的一门新型学科,它是由生物学、应用数学、计算机科学相互交叉所形成的学科,它是当今生命科学和自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一(Benton,1996;Baxevanis et al.,1998;Attwood et al.,1999)。
生物信息学(Bioinformatics)这个名词有许多不同的定义。从字面上来看,生物信息学是将信息科学应用于生物学。生物信息学广义的概念是指应用信息科学研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,或者说是生命科学中的信息科学。狭义的概念是指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学研究和应用中利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。一般提到的“生物信息学”是指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)。
生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究生物大分子,其研究重点主要落实在DNA分子和蛋白质分子两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为源头,破译遗传语言,认识遗传信息的组织,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据特定蛋白质的结构和功能进行药物分子设计。与生物信息学相关的概念还有计算分子生物学(Computational Molecular Biology),计算分子生物学主要研究分析方法,开发分析工具,促进生物分子数据的分析。与生物信息学相关的另一个名词是生物计算(Biocomputing),生物计算特指用计算机技术分析和处理生物分子数据。
生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人类基因组计划的实施。其实在二十世纪50年代就已经产生了生物信息学的基本思想,但是生物信息学的真正发展则是80年代到90年代之间,在人类基因组计划的推动下,生物信息学得以迅速发展。人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动力。
2、生物分子信息
生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能量的支持。生物体也是一个信息系统,该系统控制着生物的遗传、生长和发育。所有的信息存贮在生物体内,存贮在遗传物质中。在生命科学研究方面,人们已经逐渐认识到,不仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、复制、传递、表达及其作用,否则难以理解生命的工作机制,难以理解生命的奥秘。从生物学的观点来看,细胞是生命的基本单位,而从信息科学的观点来看,细胞则是存贮、复制和传递遗传信息的系统(钟义信,1996)。
生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,生长发育,产生生物进化。从信息学的角度来看,生物分子是生物信息的载体,生物信息学主要研究两种载体,即DNA分子和蛋白质分子。生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。
DNA是遗传信息的载体。DNA的核苷酸序列上存在着蛋白质氨基酸序列编码信息,生命的信息存储在DNA四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达,DNA序列包含着最基本的生命信息。人们已经认识到遗传信息的载体主要是DNA(在少数情况下RNA也充当遗传信息载体),控制生物体性状的基因是一系列DNA片段。一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息。另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成,基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的遗传密码。
蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养的输运、信号的识别与传递等。蛋白质功能的多种多样,但是必须注意一点,即蛋白质功能取决于蛋白质的空间结构。要了解和掌握蛋白质的功能必须首先分析蛋白质的结构,对于其它生物大分子也一样。因此,蛋白质结构是一种重要的生物分子信息。然而,而蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。
作为信息的载体,DNA分子和蛋白质分子都打上了进化的烙印。通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。
生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能等数据。序列数据、结构数据是非常直观的,但是功能数据却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等。在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据。
对生物分子数据及其关系的概括见图1.1。遗传信息从DNA序列向蛋白质序列的传递是人类已经基本了解的第一部遗传密码,然而蛋白质序列与蛋白质结构也存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将蛋白质序列到蛋白质结构的关系称为第二部遗传密码。
第一部遗传密码已被破译,但对密码究竟处于DNA序列的哪些区域还了解得不全面,对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对DNA遗传语言还有待于进一步探索。对于第二部密码,目前则只能用统计学的方法进行分析。无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。
与一般信息相比,生物分子信息具有明显的特征。首先,生物分子信息数据量大,如DNA序列以千兆(GB)为单位。随着信息处理技术进入现代生物学研究领域,随着Internet在全球的贯通,各种生物信息学数据库迅速发展,生物分子数据积累速度成倍增长。其次,生物分子信息复杂,既有生物分子序列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信息,如基因表达信息。生物分子信息一个最重要的特征是,生物分子信息之间存在着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。
对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现隐藏在这些信息之中的内在规律。同时,对于生物分子信息,仅靠某一学科的专家,也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数学家和计算机科学工作者协力合作,发展新的分子生物学计算理论和方法,运用先进的计算机技术收集、存储、集成和分析处理生物信息。
3、生物信息学的目标和任务
揭示生物分子数据的内涵是生物信息学的长远目标。生物分子数据具有深刻的内涵,数据之间存在着复杂的联系,这些数据中蕴涵着丰富的生物学知识和生物学规律(Botstein and Cherry,1997)。生物信息学的发展将揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递及表达,从而加快人类了解自身的进程。
目前生物信息学的主要研究任务有三个。第一个任务是收集和管理生物分子数据,使得生物学研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础。生物分子数据来自于生物学实验,应用信息学技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统,并提供数据查询和数据通讯工具。
生物信息学的第二个任务是进行数据处理和分析。通过信息分析,发现数据之间的关系,发现本质规律,进而上升为生物学知识。在此基础上解释与生物分子信息复制、传递、表达有关的生物过程,解释生物过程中出现的故障与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基础。生物分子信息处理流程见图1.2。目前生物信息学的主要研究对象是DNA和蛋白质。在DNA分析方面,着重分析DNA序列中的基因信息及基因表达调控信息,分析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组。在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的功能,研究蛋白质家族关系,开展进化分析。
生物信息学的第三个任务是开发分析工具和实用软件,解决具体的问题,为具体的生物信息学应用服务,如生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。
随着生物技术特别是分子生物学技术的发展,目前已经积累了大量的生物信息学数据,表1.1列出至2001年初已经得到的各类数据量及生物信息学对各类数据处理的基本任务(Luscombe et al.,2001.)。生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学的研究与应用,生物信息学研究成果不断涌现,各种生物信息源如雨后春笋层出不穷,而各种生物信息分析算法和工具也日益更新。
掌握Internet上各种生物信息学数据库以及相关软件的使用已成为生物学和医学工作者的迫切需要(欧阳曙光等,1999)。尤其是分子生物学的三大核心数据库—GenBank核酸序列数据库、SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,不仅是全世界分子生物学工作者获取生物分子的序列、结构和其他信息的基本来源,而且是发表自己的序列或结构测定结果的重要媒体。而围绕这三大核心数据库还有上百个衍生库,这些数据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释。
表1.1 至2001年初已经得到的各类数据及基本数据处理任务
数据源 |
数据量 |
生物信息学任务 |
DNA序列 |
11.5百万条序列 125.0 亿个碱基 |
分离编码与非编码区域 识别内含子与外显子 基因产物预测 基因功能注释 基因调控信息分析 |
蛋白质序列 |
40.0万条序列 (每条序列平均有300氨基酸) |
序列比较 多重序列比对 识别保守的序列模式 进化分析 |
大分子结构 |
1.5 万个结构 (每个结构平均1000个原子坐标) |
二级结构、空间结构预测 三维结构比对 蛋白质几何学度量 表面和形态计算 分子间相互作用分析 分子模拟 |
基因组 |
300个基因组 |
标注重复序列 基因结构分析 系统发生分析 基因与疾病的连锁分析 基因组比较 遗传语言分析 |
基因表达 |
酵母6000个基因 在约20时间点表达值 |
基因表达模式相关分析 基因调控网络分析 表达调控信息分析
|
4、生物信息学研究对象及研究意义
生物信息学研究是从理论上认识生物本质的必要途径。通过生物信息学研究和探索,可以更为全面和深刻地认识生物科学中的本质问题,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。基因序列到蛋白质序列的三联密码关系是众所周知的,也是非常简单、非常确定的。然而基因调控序列与基因表达之间的关系、蛋白质序列与蛋白质结构之间的关系则是未知的,也一定是非常复杂的。破译和阐明生物信息的本质将使得人类对生物界的认识跨越一个新台阶。
生物信息学的出现将改变生物学的研究方式(郝柏林等,2000)。传统的生物学是一门实验科学,传统分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手工分析完全能够胜任。然而随着分子生物学技术的发展,已经出现一些高通量的实验方法,如基因芯片(Chee,et al.,1996;Marshall and Hodgson,1998),利用基因芯片一次可以获取上千个基因的表达数据。生物学已经从一次只分析一个生物分子的时代跳跃到同时分析成千上万个生物分子的时代。对于高通量的实验结果,必须利用计算机进行自动分析。因而,在高通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验。再一方面,从生物分子数据本身来看,各种数据之间存在着密切的关系,如DNA序列与蛋白质序列、基因突变与疾病等,这些联系反映了生物学的规律。但是这些关系可能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析的。对于这些复杂的关系,必须运用现代信息学的方法去分析,去研究。因而,随着分子生物学研究的深入,必然需要生物信息学。另外,现在全世界每天都会产生大量的核酸和蛋白质序列,不可能用实验的方法去详细研究每一条序列,必须首先进行信息处理和分析,去粗取精,去伪存真。通过预处理,发现有用的线索,在此基础上进行有针对性、有明确目的的分子生物学实验。因而,生物信息学在指导实验、精心设计实验方面将会发挥重要的作用。科学家语言,生物信息学将是21世纪生物学的核心。
生物信息学研究在医学上也有重要的意义。通过生物信息学分析,可以了解基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据(Jimenez-Sanchez et al.,2001;Futreal et al.,2001)。研究生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用的目标和作用的方式,从而为设计新药提供依据(Lyall,1996;赵善荣等,1997;李伟章等,1999;Drews,2000)。揭示人类及重要动植物种类的基因的信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在迅速发展的自然科学领域最重大的课题之一,不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础。
第二节 生物信息学的发展历史
早在19世纪,人们就已经知道蛋白质在生命活动中的作用。1883年,Curtius首先提出蛋白质线性的一级结构的假设。1933年,Tiselius首次通过电泳将溶液中的蛋白质分离出来。在20世纪50年代前后,已经通过实验测定一些蛋白质的序列,如1947年测出短杆菌(gramicidine)的五肽结构(Consden et al.,1947),1951年重构胰岛素的30个氨基酸(Sanger and Tuppy,1951)。几乎同一时期,科学家认识到DNA是遗传物质。1949年,发现了DNA链中A=T、G=C的规律(Chargaff et al.,1949),1951年,Pauling和Corey提出蛋白质的a螺旋和b折叠结构,1953年Watson和Crick根据Franklin和Wilkins得到的X-射线衍射数据提出DNA的双螺旋结构模型(Watson and Crick,1953),它揭开了分子生物学研究的序幕。在其后的20年中,科学家们逐步地认识了从DNA到蛋白质的编码,掌握了三联密码子的本质(Trifonov,2000)。1961年,Jacob和Monod发现大肠杆菌的lac操纵子中存在调控元件,证实非编码序列并不是垃圾序列。1962年,Khesin等人发现噬菌体中的基因转录表达具有定时调节机制。60年代出现通用的核酸测序技术,70年代中期开始进行基因组规模的测序工作(Trifonov,2000)。
早在20世纪50年代,生物信息学就已经开始孕育,1956年在美国田纳西州的Gatlin burg召开了首次“生物学中的信息理论研讨会”。在20世纪60年代,一些计算生物学家开始进行相关研究,虽然当时没有具体地提出生物信息学的概念,但是做了许多生物信息搜集和分析方面的工作。在这个时期,生物大分子携带信息成为分子生物学的重要理论(Hagen JB. 2000),生物分子信息在概念上将计算生物学和计算机科学联系起来。大量的生物分子序列成为丰富的信息源,科学家们开始应用计算方法分析这些信息。相关或者同源蛋白质序列之间的相似性首先引起人们的注意,1962年,Zucherkandl和Pauling研究了序列变化与进化之间的关系(Zuckerkandl and Pauling,1962),开创了一个新的领域——分子进化(molecular evolution)。随后,通过序列比较确定序列的功能及序列分类关系成为序列分析的主要工作。氨基酸序列的收集是这个时期的一个重要工作,1967年,Dayhoff研制出蛋白质序列图集(Dayhoff 1969),该图集后来演变为著名的蛋白质信息源PIR。20世纪60年代是生物信息学形成雏形的阶段。
然而就生物信息学发展而言,它却是一门相当年轻的学科,一般认为,生物信息学的真正开端是20世纪70年代。从70年代到80年代初期,随着生物化学技术的发展,产生出大量的序列数据,而在这个阶段数学统计方法和计算机技术都得到较快的发展,于是促使一部分计算机科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。他们开始研究生物分子序列,研究如何根据序列推测结构和功能。这时,生物信息学开始展露头角。
从70年代初期到80年代初期,出现了一系列著名的序列比较方法,其中Needleman和Wunsch于1970年提出的序列比对算法是对生物信息学发展最重要的贡献(Needleman and Wunsch,1970)。同年,Gibbs和McIntyre发表的矩阵打点作图法也是进行序列比较的一个著名方法,该方法可用于寻找序列中的重复片断,从而推测其功能(Gibbs and McIntyre,1970)。Dayhoff提出的基于点突变模型的PAM矩阵(Dayhoff 1969;Dayhoff et al.,1978)是第一个广泛使用的氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。Science期刊于1980年第209卷发表了关于计算分子生物学的综述。1981年Smith和Waterman提出了著名的公共子序列识别算法(Smith and Waterman,1981),同年,Doolittle(Doolittle,1981)提出关于序列模式(motif)的概念。1983年,Wilbur和Lipman发表了数据库相似序列搜索算法(Wilbur and Lipman,1983)。1985年,出现快速的蛋白质序列搜索算法FASTP/FASTN,1988年,Pearson和Lipman发表的著名的序列比较算法FASTA(Pearson and Lipman,1988)。1990年,快速相似序列搜索算法BLAST问世(Altschul et al.,1990),1997年,BLAST的改进版本PSI-BLAST投入实际应用(Altchul et al.,1997)。
在20世纪70年代,还不断涌现出许多生物信息分析方法。1972年,Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的(Gatlin,1972)。1977年,出现了将DNA序列翻译成蛋白质序列的算法(Korn et al.,1977;McCallum and Smith,1977)。1975年,继第一批RNA(tRNA)序列的发表之后,Pipas和McMahon首先提出运用计算机技术预测RNA二级结构(Pipas and McMahon,1975)。1978年,Gingeras等人研制出核酸序列中限制性酶切位点的识别软件(Gingeras,1978)。
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。1982年核酸数据库GenBank第3版公开发行。1986年,日本核酸序列数据库DDBJ诞生。1986年,出现蛋白质数据库SWISS-PROT。1988年,美国国家卫生研究所和美国国家图书馆成立国家生物技术信息中心NCBI。同年,成立欧洲分子生物学网络(EMBnet),该网络专门发布各种生物数据库。
在20世纪90年代后,科学家们开始大规模的基因组研究。1986年,出现基因组学(Genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动,该计划被誉为生命科学的“阿波罗登月计划”。1993年,成立Sanger中心,该中心专门从事基因组研究。1995年,第一个细菌基因组被完全测序,1996年,酵母基因组被完全测序。1996年,Affymetrix生产出第一块DNA芯片。1998年,第一个多细胞生物—线虫的基因组被完全测序。1999年,果蝇的基因组被完全测序。1999年年底,国际人类基因组计划联合研究小组宣布人类第一次获得一对完整人染色体——第22对染色体的遗传序列。2000年6月24日,人类基因组计划协作组的6个国家研究机构在全球同一时间宣布已完成人类基因组的工作框架图。与此同时,生物信息学在人类基因组计划的促动之下迅速发展。
图1.3 描绘了从1973年以来生物医学文献数据库PubMed中搜集的与生物信息学相关论文的历年统计结果。这张图从有关生物信息学论文数量的变化说明了何时是生物信息学的形成初期,何时是生物信息学的迅速发展期。
无论从理论上来讲还是从实际情况来看,生物信息学的实质就是利用计算机科学和技术来解决生物学问题。生物信息学的诞生是生物学对大量数据处理和分析的需求而引发,是历史的必然。作为一门交叉学科,生物信息学的发展依赖于计算机科学技术和生物技术的发展,而生物信息学的研究成果又促进了生物学特别是分子生物学的发展。关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html、http://www.biosino.org/bioinformatics/dashiji.htm。
年 份
图1.3 PubMed中与生物信息学相关论文统计
第三节 人类基因组计划和基因组信息学
目前,生物信息学的核心是基因组信息学,生物信息学在人类基因组计划的大力推动下迅速发展。人类DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。人类为了探索人体自身的奥秘,把研究目标对准在基因上。在人类基因组计划以前偏重于研究单个基因,但人体的生长发育是基因组中各个基因相互作用、协同工作的结果,人的疾病也往往与多基因相关,因此人类基因组计划将目标对准整个基因组,从整体水平去考虑基因的存在、基因的结构与功能、基因之间的相互关系等。
1、人类基因组计划简介
人类基因组研究又称“基因组学”(genomics)。人类基因组研究是在人类迫切需要认识自身的前提下产生的(李伟等,2000)。人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大科学计划(Collins et al.,1998),与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划,该计划在世界各国引起了很大反响。人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息(杨焕明等,2000;贺林,2000;Baltimore,2001)。
人类基因组计划的具体任务可以概括为建立四张图谱,分别是遗传图谱、物理图谱、序列图谱和转录图谱。遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。限制性酶切图谱是一种高分辨率的物理图谱,它显示的是各种限制酶切点的相对位置,限制性酶切点是物理图谱中最主要的界标。人类基因组计划中用的是基于STS(sequence tagged site)的物理图谱,在这一图谱中基因组的某些区段比其它区段得到更详细的绘制。物理图谱中STS标记的平均间隔可以为寻找和分离目的基因以及DNA测序提供重要基础。物理图谱是以核苷酸的长度为单位绘制而成的。完成遗传图谱和物理图谱是建立序列图谱的前提条件。
人类基因组全部DNA序列的测定是HGP的核心部分。随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作,而大规模测序技术的改进及分析大片段DNA序列的生物信息技术的进步,对完成人类基因组全部核苷酸序列的测定起着决定性作用。测序的完成依赖物理图谱上排序的DNA片段分子克隆,这些分子图谱通常是在较短的时间由一个研究组从单一分离群体中获得的。为了充分利用所有的信息,要对其全部标记同时进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。现在多采用凝胶电泳法进行测序,但由于每次测序的DNA片段长度仅为几百到一千个碱基,故大片段DNA测序必须分解为一系列小片段进行。因此,利用定向和随机测序方法获得连续的小片段是大规模DNA测序的关键。随着自动化技术的迅猛发展,测序反应的许多步骤已实现自动化。例如应用自动测序仪可将凝胶电泳、初始信息收集、碱基阅读等步骤自动化,具有手工测序不可比拟的可重复性和高效性,适用于人类基因组的大规模测序。通过测序得到基因组的序列图谱。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。因为人类基因组中有许多不参与蛋白质编码的内含子,所以只有识别出其中的蛋白质编码序列,才能够做到基因识别(gene identification)。基因识别是HGP的重要内容之一,其目的是识别全部人类的基因,即基因组在生命活动中发生转录表达的DNA片段,并对其结构进行研究。目前常采用的有二种方法:一是从基因组序列中识别那些转录表达的DNA片段;二是从cDNA文库中挑取并克隆。两种方法都必须依靠生物信息学的帮助即信息系统的建立,前者需要对基因组进行分析,后者要对基因文库进行分析,甚至还要进行分类分型,建立二级库,才能有效地挑取到所需要的DNA分子克隆。将已知基因定位于物理图谱和DNA序列图谱是基因识别的另一个前提,对此通常采用染色体荧光标记原位杂交的方法。除此之外,还必须确定特定基因在生物体的那些组织、细胞里表达,也就是基因的表达模式问题,这是对基因的可能功能进行推测必不可少的信息。DNA微阵列或基因芯片是进行基因表达分析的关键技术。图1.4显示了细胞、染色体和人类基因组计划的四张图。
模式生物基因组在HGP中占有重要的位置。模式生物基因组结构相对比较简单,单位DNA片段上基因的密度高,易于进行基因的识别。从进化角度讲,生物的许多基因有很大的同源性,对模式生物基因的分析有助于阐明人类基因的结构与功能。人类基因组计划中包括5种模式生物,分别是大肠杆菌、酵母、线虫、果蝇和小鼠。这5种模式生物具有代表性,其中大肠杆菌是经典的实验材料,是基因工程和蛋白质工程中常用的生物。酵母是最简单的真核生物,只有一个细胞,一个细胞就组成一个独立的生物体,研究中选用的酵母是啤酒酵母。对线虫的发育过程进行研究,可以知道成虫的每一部分是怎么发育起来的。果蝇是经典遗传学家喜欢的实验生物,摩根就是根据果蝇实验而发现遗传学中著名的“连锁交换律”。小鼠作为实验动物,也不知道为人类作出了多少贡献,它是人类的近缘亲戚,也是哺乳动物,只有几亿年的进化距离,其基因组规模与人类差不多,基因的数目与人也差不多。
对致病基因的克隆也是人类基因组计划的内容。疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或调控,即可达到治疗某一疾病的效果。如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断,甚至治疗。人类基因组计划的实现将对医学事业(陈竺等,2001)、生物学的研究乃至人类生活的各个领域产生不可估量的影响,这一点已不容置疑。人类的任何疾病都与人类的基因有关,都是人类基因组与病原基因组中的有关基因相互作用的结果。例如,所有癌症都是由于DNA序列的变化引起的,在人的一生中,细胞中的DNA不断受到癌诱导物质的侵扰,同时也处于自身复制错误的危险之中,每个细胞中DNA都可能发生变化,在大部分情况下这些变化不会对人体产生太大的影响,但是在极端的情况下,DNA序列的变化可能会导致关键基因功能的变化,引起细胞增殖的失控。上个世纪中叶,特别是70年代,人类组织的攻克肿瘤的尝试,建立了“基因病”的概念,即不仅疾病与基因相关,而且所有药物都是通过基因起作用的,都是通过修饰基因的本身结构、改变基因的表达调控、影响基因产物的功能而起作用的。要认识疾病,就一定要认识致病基因。例如,比较正常细胞的基因组和癌细胞基因组可以发现引发癌症的基因突变、基因组紊乱。又如,通过家系寻找与疾病相关的基因,图1.5表示通过定位克隆技术寻找遗传疾病基因的过程(Schuler et al.,1996)。对疾病基因按产物功能分类,并进行统计分析,可以发现酶或者调控蛋白影响疾病的可能性最大。粗略估计,大约10%的人体基因是可能的药靶,这3000个候选基因具有重要的社会经济价值,国际上每个大的制药公司只能掌握其中的几个,制药业面临着新的挑战。
人类基因组计划得到的是人类基因组的蓝图,但是个体基因组之间并非完全相同,存在着大约0.1%的差距,这就是所谓的基因多态性。这种基因组之间的差异规定了人与人的不同,利用基因多态性可以进行亲子分析,实现个人身份鉴别。对基因多态性的分析将会使我们能够揭示个人能力的遗传学基础,这些个人能力包括计算能力,记忆能力,身体协调性,甚至可能是创造力。基因多态性在医学上表现为不同的人对基因的易感性或抵抗性,同时也表现为针对同样疾病同样治疗的效果不一样,有的人病愈,有的人则治疗效果不明显。基因组计划(特别是即将进行的人类基因变异图谱计划)将促进个体化治疗的发展,在不久的将来,我们可以根据不同患者的致病基因,研制出适合于他们的治疗药物。如果真能做到“因人施药”,可能是基因组研究给患者带来的最大福音。
人类基因组计划建立的人类基因组图,可以理解成“人体第二张解剖图”。人体解剖图告诉我们人体的构成、主要器官的位置、结构与功能,了解所有组织与细胞的特点,这才有了现代医学。而人类基因组计划绘制成的第二张解剖图将成为疾病的预防、预测、诊断、治疗及个体医学的参照,为在分子层次上进行生物医学研究提供了科学依据。这张新的解剖图将使人类的医学水平上一个新台阶,将促进产生新的生物医学技术。
人类基因组计划进行得非常顺利,原定于2005年的完成时间已提前到2003年,目前高分辨率的遗传图谱和物理图谱已构建成功,一些模式生物的基因组测序工作已经完成。1999年底科学家成功地确定了人类第22条染色体上所有核苷酸的成分,人类第一次破译出人的一对染色体的全部遗传密码。我国于1999年9月正式参与人类基因组计划,并承担了1%的测序任务,成为国际上承担HGP任务的6个国家之一。
人类基因组计划的实施还有着许多重要的意义。第一,人类基因组是用遗传语言书写的一本“天书”,为了研究遗传语言,我们必须首先要得到这本天书。人类基因组计划提供给我们这本天书,为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便。通过人类基因组计划得到存在于天书中的调控人体生长、发育的整套指令,使人类对自身有一个根本的了解。第二,人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。第三,同时研究多种模式生物基因组将有助于研究地球生物的进化史。
2、人类基因组计划给生物信息学提出挑战
随着HGP的提出和实施,实验数据和信息急剧增加,HGP提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越显得紧迫和重要,信息的管理和分析成为HGP的一项重要的工作。早在HGP提出时人们就预示到生物信息学的重要性,当时成立了由几十位著名专家组成的生物信息学研究组,而在基因组计划实施后,生物信息学的重要性也真正地显示出来了,生物信息学应用于基因组,成为基因组信息学。基因组信息学的主要任务是收集和管理基因组数据,分析和处理DNA、RNA、蛋白质等各类信息,对照比较基因组数据,发现新的基因,阐明基因的结构和基因的功能(Lim and Canto,1995;陈润生,1999;刘洪斌,2000)。
信息的收集、储存、分发、分析是基因组计划最初提出时确定的基本任务,计划实施后,每天都有成千上万条基因组数据,数据的取舍非常重要,数据的标准化和检验成为信息处理的第一步工作。在此基础上建立数据库,存储和管理基因组信息。基因组计划产生多种信息,需要对大量原始数据进行分类,建立具有特定功能的数据库。同时,基因组数据必须提供给广大的科学工作者使用,基因组数据管理系统要提供友好的数据查询界面,使得一般科学工作者能够非常方便地获得相关生物分子信息,这样才能有效地利用已有信息,使人类基因组数据真正地造福于人类。另外,基因组数据复杂,为了便于理解这些数据,需要借助于计算机可视化技术,通过表格、图形、图像、动画等各种方式形象地表示基因组数据。基因组信息学另一个任务是处理原始的信息库,通过分析、分类,按照需要建立具有特殊功能的二级数据库。二级数据库是进一步研究开发基因组的重要手段,通常是封闭的,不对外开放,仅供内部使用。当然,从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。这需要开发分析软件,分析软件是有效利用基因组信息的工具,同时分析软件也是构建二级、三级数据库的条件和手段。分析软件还可将不同性质的数据库结合一起,如将基因组序列数据和蛋白质数据结合计算,可以推断结构和功能的关系,从而成为一种发现新信息的快捷方法。
进行大规模基因组DNA序列测定的基本条件是构建能够覆盖每条人类染色体而重叠度又最小的连续克隆系。这些克隆系所包含的大片段DNA无法一次测序,需要随机剪切成有重叠区的小片段,然后逐段测序,并根据各片段之间的重叠关系再装配成全序列,这就涉及到非常复杂的计算数学问题,研究新算法是解决DNA序列拼接自动化的关键。
从酿酒酵母的全基因序列测序中,可以看出生物信息学在基因组信息数据分析的作用。90年代初,全世界600名科学家联合起来,在短短几年内完成12Mb的酿酒酵母的全基因组测序,找出5885个编码蛋白质的基因,390个转录Rrna、snRNA和tRNA的基因。这些基因大约60 %是通过信息分析得到的。如此迅速的进展得益于生物技术的发展,得益于信息科学的渗透,得益于生物信息学方法和技术的发展和应用。
HGP即将完成,我们即将进入“后基因组学”(post-genomics)时代。基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,这种转向的一个标志是产生了功能基因组学(functional genomics)这一新学科。基因组学实际上是为功能基因组学做准备,一旦功能基因组学进入实质性的发展阶段,人类将可以从中获得更大的利益。功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用(Gershon,1997;解涛,2000;赵剑华等,2000;Peltonen and McKusick,2001)。功能基因组学从基因组整体水平上对基因的活动规律进行阐述,这从根本上改变了传统生物学的思维方式。传统的“还原论”方法是一种假设驱动的方法,即反复验证已经存在的关于特定基因或蛋白质功能的假设,但是不能产生新的假设。随着生物学技术和计算技术的发展,逐渐形成一种新的全局方法:基因组表达图谱(转录分析,如在mRNA水平上通过DNA芯片技术检测大量基因的表达模式)和大规模蛋白图谱(蛋白组分析)方法。在使用全局方法进行研究时,研究人员同时检测大量基因的表达水平,从而在整体水平上获得关于基因功能及基因之间相互作用的信息。与还原论不一样,这种研究方法能够积极地产生许多新的假设。如果说生物信息学在HGP中的着重点是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。在功能基因组时代,应用生物信息学方法,高通量地注释基因组所有编码产物的生物学功能是一个重要的特征。
功能基因组学的研究主要包括以下几个方面的内容,并且这几方面都与生物信息学密切相关。(1)识别基因组的组成元素,即识别基因组的编码区或称“开放阅读框架 (open reading frame,ORF)”,识别基因结构,识别基因转录调控信息。基因识别需采用生物信息学、计算生物学技术和生物学实验手段,并将理论方法和实验结合起来。基于理论的方法主要从已经掌握的大量核酸序列数据入手,发展序列比较、基因组比较及基因预测理论方法。(2)注释所有ORF产物的功能,这是目前基因组功能注释的主要层次。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图;(4)比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能(Pellegrini et al.,1999)。在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。基因组是生物进化史的记录,是生物物种的数据库。目前,我们有了越来越多的模式生物全基因组序列数据,因而,对于基因的比较研究,也必须从单个基因的比较上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。利用生物信息学,对不同进化阶段物种的基因组结构和功能进行比较分析,可以追溯一些基因的起源和演变过程,估算生物之间的亲缘关系或遗传距离,最终弄清人类3万个基因的起源和进化,认识结构和功能的演变,发现其间的亲缘关系,从而找到生物学的“基因”周期表。完整基因组比较将会为我们提供更多的生物学信息:最小独立生活的生命至少需要多少基因?基因在染色体上的分布是如何决定生物体的表型?是什么将一个生物体同另一个生物体区别开来?人类特有的基因有多么少?
基因组计划的实施结果和生物信息学的发展对药物研究将产生重大影响。大量有关基因及其产物的结构和功能的信息、基因间相互作用的信息、基因调控的信息、分子进化的信息,不断涌现,为研制新药提供了丰富的信息和知识。生物信息学和人类基因组计划为药物靶目标的发现、新药的研制开创了新天地。未来的药物研究将是基于生物信息知识挖掘的过程,新药的研究将从计算机开始。首先通过数据处理和关联分析,发现药物作用对象,确定靶目标分子,在此基础上针对靶目标设计合理的药物分子。而进行合理的药物设计,必须了解药物分子和靶分子是如何在空间上相互作用的,而这方面的工作也是由生物信息学来完成,如对药物分子或蛋白质分子的结构进行预测,利用分子图形学方法研究药物分子与蛋白质分子的相互作用。可以看出,未来的药物研究对生物信息学提出了非常高的要求。
基因组计划和生物信息学将使人们对疾病的了解发生革命。科学家能够更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,并对这批人进行更精确的筛选,从而彻底改变我们诊断治疗和预防疾病的方式。在不久的将来,医院通过基因芯片分析,在几分钟内就可以确定病人的疾病本质,从而对症下药。
生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,HGP在生物信息学的支持下,前进步伐大大加快,提前完成计划已成定局,功能基因组研究也已经全面展开。而HGP反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学最近十年迅速发展的历程证明了这一点。在过去的40余年中,仅仅围绕基因组编码区5%左右序列的研究,就造就了几十名诺贝尔奖获得者。可以想象人类基因另外95%非编码区序列,会有多少信息等待我们去发掘。
第四节 蛋白质结构与功能关系的研究
上一节介绍了生物信息学与人类基因组计划的关系,说明生物信息学在DNA水平上、在基因组信息分析中的作用。虽然目前生物信息学的核心是基因组信息学,但研究蛋白质序列、蛋白质结构以及蛋白质的功能也是生物信息学的一个重要方面。基因贮存了生命的信息,但是基因的表达还是落实在蛋白质上,蛋白质是生命活动的主要承担者。人类基因组计划勾画出人体的蓝图,然而全面了解复杂的人体,还需要进一步深入认识基因组所产生的全部蛋白质和RNA。这是蛋白组学研究的推动力。
蛋白质组 (Proteome)是指由基因组编码的全部蛋白质。从这个定义看,蛋白质组内蛋白质的数目似乎应该等于基因组内编码蛋白质的基因的数目。但在生物体内这样的蛋白质组是不存在的,就基因表达而言,在一个细胞中并不是所有基因都同时表达的,因而,蛋白质组中蛋白质的数目总是少于基因组中基因的数目。但从基因可变剪切和蛋白质修饰的角度看,蛋白质的数目又远远多于基因组中基因的数目。基因组基本上是固定不变的,而蛋白质组是动态的,具有时空性和可调节性,能反映某基因的表达时间、表达量,以及蛋白质翻译后的加工修饰和亚细胞分布等。在特定时间、特定环境和实验条件下基因组活跃表达的蛋白质为功能蛋白质组 (Functional Proteome) ,功能蛋白质组只是总蛋白质组的一部分。蛋白质组和功能蛋白质组是生命科学的新的研究内容。蛋白质组学是研究细胞内所有蛋白质及其动态变化规律的科学,旨在阐明生物体全部蛋白质的表达模式及功能模式,其内容包括鉴定蛋白质的表达、存在方式 (修饰形式 )、结构、功能和相互作用等(谭文斌等,1998;李林,2000)。从蛋白质组的定义上就可以清楚看出,蛋白质组学不同于传统的蛋白质学科之处在于它的研究是在生物体或其细胞的整体蛋白质水平上进行的,它从一个机体或一个细胞的蛋白质整体活动的角度来揭示和阐明生命活动的基本规律。
基因组计划的不断推进,其结果不仅导致DNA序列数据的迅速增长,导致已知基因数的迅速增加,也导致蛋白质序列数据的迅速增长。因而,对蛋白质数据进行信息学研究也就顺理成章。利用生物信息学对蛋白质进行同源分析,研究蛋白质之间的进化关系,研究蛋白质家族。当然,对于蛋白质,我们更关心的是蛋白质序列、蛋白质结构和蛋白质功能的关系。在蛋白质研究中,一个关键的问题是蛋白质的空间结构。这是因为我们最终所关注的是蛋白质的功能,而蛋白质的功能又是由蛋白质的构象或空间结构所决定的。然而,我们目前通过实验所得到的蛋白质结构还很少,因此,需要通过理论计算或统计预测方法来得到蛋白质的结构,为进一步研究蛋白质的功能、进行分子设计提供依据。
生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。
蛋白质空间结构预测是一个重要的问题,它成为近年来全世界生物学家关注的焦点。从 50年代第一个蛋白质———肌球蛋白的空间结构被测定至今已有近50年的历史,但总计被测定的蛋白质结构只有1万多个。因此,要想用实验的方法测定所有蛋白质的空间结构是不可能的事情。解决这一问题的有效途径似乎只有从理论上发展预测蛋白质结构的新方法。这些方法的基本思想是将基于经验和知识的方法与计量化学、统计物理学、信息学的方法相结合起来,从理论上预测蛋白质的空间结构。一旦这些方法取得成功,蛋白质折叠这一分子生物学难题将有望获得解决,同时也为分子生物学研究提供新的思路。蛋白质的序列与蛋白质的结构存在着一种对应的关系,这是目前蛋白质结构预测的一种前提假设。在该假设下,我们可以进一步研究如何根据蛋白质序列来预测蛋白质的结构。现在已经有一些比较好的算法,可以根据蛋白质序列预测蛋白的二级结构。蛋白质的空间结构比蛋白质序列更保守,因此可以认为同源的蛋白质具有相似的空间结构。在进行蛋白质预测结构时,首先寻找与待定结构的蛋白质同源物,并且要求知道所找到的同源蛋白质的结构。这样,利用同源相似性,推测未知蛋白质的结构。与结构预测相反的一个问题是,如果要到达某种特定的空间结构,那么什么样的蛋白质能够具有这样的结构呢?换句话说,什么样的氨基酸序列能够折叠成特定的结构?
蛋白质结构是合理药物分子设计的基础。许多药物分子作用的靶是蛋白质或者酶,其活性部位或结合部位是药物作用的目标,这些部位具有特定的空间形状,只能和特定的分子所结合。在设计新的药物分子时,往往考虑使得所设计的药物小分子的结构与活性部位互补,这样才能使得药物分子与靶结合,从而发挥药效。这就要求知道相应蛋白质活性部位的结构。
蛋白质结构也是蛋白质工程的基础。所谓蛋白质工程是指人们在深入了解蛋白质空间结构以及结构和功能关系,并且在掌握基因操作技术的基础上,设计和改造蛋白质,从而改善蛋白质的物理和化学性质,例如,提高蛋白质的热稳定性,提高酶的专一性,使之更好地为人类所用。
生物信息学除了研究蛋白质结构及功能关系之外,还可以研究蛋白质的进化问题,研究不同蛋白质之间的进化关系。分析和比较蛋白质序列是开展进化分析或者系统发生分析的基础。通过序列比较,计算序列之间的“进化距离”,判别两个蛋白质究竟是“远亲”还是“近邻”,绘制一组蛋白质的家族图谱。但是蛋白质序列比较比DNA序列比较更加复杂,其中一个原因是DNA序列仅由4种碱基组成,而蛋白质序列则由20种氨基酸所组成。蛋白质序列不仅组成元素多,而且组成元素之间的关系复杂。例如,氨基酸之间的关系可以是理化性质相似的,也可以是对应密码子相邻的。因此对蛋白质序列相似关系的评价更加复杂。
现在生物信息学也可以研究蛋白质的性质,如亲水性和疏水性,蛋白质翻译后修饰位点的判断,信号肽位置确定,3D蛋白质模拟等等。利用计算机模拟所得的理论数据,将极大地推动蛋白质结构预测与分子设计。
第五节 目前生物信息学主要研究内容
生物信息学作为一门新的交叉学科领域,以基因组DNA序列信息分析作为出发点,分析基因组结构,寻找新基因,分析基因调控信息,在此基础上研究基因的产物,即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于受体结构的药物分子设计和蛋白质分子改性设计提供依据。当前,生物信息学已在理论生物学领域占有了核心的地位。生物信息学主要有以下几个方面的研究内容。
1、 生物分子数据的收集与管理
核酸的序列测定是分子生物学的一大突破,并取得了极大的进展,目前已测定的核酸序列的数量呈指数级增长。根据人类基因组计划进展情况,到2003年将得到人类的30亿个碱基对,其他种属基因组的DNA全序列测定也在积极地进行。在蛋白质方面,目前已知约24万个蛋白质的序列,其中7万多个序列是实验测得的结果,而其它序列则是从核酸序列根据遗传密码推导出来的。通过X射线衍射或核磁共振方法测定的蛋白质空间结构约有7500个。
生物分子数据量巨大,特别是核酸序列数据以千兆(giga)记。有组织地搜集和管理这些数据是各项工作的前提。为了便于其他研究人员共享这些数据,及时取得最新的实验结果,也为保证数据的一致性、可靠性和完整性,国际上有专门的机构搜集和管理这些数据。对生物分子数据管理的一个特别要求是交叉索引,即数据库中的每一条数据应尽可能地与其它数据库中的相关数据连接起来。如从核酸数据库中的某段DNA序列到蛋白质序列数据库对应蛋白质序列的连接,从蛋白质序列数据库到蛋白质结构数据库的连接,前者实际上说明了基因和其产物之间的联系,而后者反应蛋白质序列和结构之间的映射关系。对生物分子数据管理的其它要求还包括便于查询、直观显示等。
生物信息学发展很快,各种数据库不断涌现,数据库各有不同的特色。美国、日本、欧盟、加拿大等国都有基因组数据库,有的是国际性的,有的是本国的,有的公开,有的不公开。对于核酸序列,有三个权威组织在管理各自的数据库,一个是欧洲分子生物学实验室的EMBL,一个是美国生物技术信息中心的GenBank,另一个是日本遗传研究所的DDBJ。三个组织相互合作,各数据库中的数据完全一致,对于特定的查询,三个数据库的响应结果一样。数据库中的数据来源于众多的研究机构和基因测序小组,来源于科学文献。著名的蛋白质序列数据库是美国生物医学基金会建立的PIR及瑞士生物信息学研究所和欧洲分子生物学实验室共同维护的SWISS-PROT,而著名的蛋白质结构数据库是美国Brookhaven实验室的大分子数据库PDB。各种数据库可借助于CD-ROM发布,也可以通过Internet网络查询。
数据库的内容十分丰富,除上述DNA序列、蛋白质序列和结构数据库之外,还有表达序列标记数据库(dbEST),序列标记位点数据库(dbSTS),蛋白质序列功能位点数据库、基因图谱数据库等一些具有特殊功能的数据库(郝柏林等,2000)。
2、 数据库搜索及序列比较
对于许多新得到的序列,我们并不知道其相应的生物功能。生物学研究人员希望能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序列的生物功能。搜索同源序列在一定程度上就是通过相似比较寻找相似序列。在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构,结构决定功能。所以当研究序列的相似性时,我们最终希望根据这个普遍规律推测新序列相应的结构或功能,也就是发现新的生物分子数据的内涵。这种方法在大多数情况下是成功的,当然也有例外,同时也存在着这样的情况,即两个序列几乎没有相似之处,但分子却折叠成相近的空间形状,并具有相似的生物功能。
对于DNA序列,同源搜索除有助于确定其功能之外,还有助于确定基因。对于蛋白质,我们非常希望能够直接从蛋白质序列准确地预测蛋白质的结构和功能,不过目前还做不到这一步。但通过序列的比较分析,特别是将一个未知结构、功能的蛋白质序列与已知结构、功能的蛋白质序列进行比较,可以得到一些关于蛋白质结构或功能的有用信息。通过比较不同动物种类的同源序列,还可以得到这些种类从他们共同的祖先进化的信息。
序列比较的一个基本操作就是对比排列(Alignment),即将两个序列的各个元素按照对应等同关系进行排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述,它反应了在什么部位两个序列相似,在什么部位两个序列存在差别。最优排列反应了两个序列的最大相似程度和最少的不同之处,寻找最优排列的一般算法就是动态规划算法。一个新序列与数据库中的某个序列的比较在很短的时间内就可以完成,但由于DNA序列数据库的数据量巨大,逐个比较需要很长的时间。因此,对于DNA序列搜索比较算法要求具有较高的速度。目前在序列搜索方面有多种不同的实用程序,但较成功的两个程序是BLAST和FASTA,它们能够根据所给定的目标序列,快速地从DNA序列数据库或蛋白质序列数据库中找出同源序列。它们采取专门的技术以加快搜索速度,如BLAST采用的是局部对比排列技术。现在,这两个程序已被广泛地应用于DNA或蛋白质序列分析。
与序列两两对比排列不一样,多重对比排列研究的是多个序列的共性。多重对比排列可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。在蛋白质研究方面,除序列数据库搜索之外,还有结构数据库搜索,而通过结构数据库的搜索,常常能发现蛋白质之间更深层的关系。如对于两个序列不相似的蛋白质,通过结构数据库搜索比较,却可能发现这两个蛋白质具有相似的空间结构,因此可以推测这两个蛋白质具有相似的生物功能。
3、 DNA序列分析
DNA序列是遗传信息的源泉,它对蛋白质的编码是我们所感兴趣的重要内涵。在DNA序列分析方面,识别编码区域或识别基因是最关键的(Stormo,1987)。如果发现一个新的基因,就可以了解与其相关的生理功能或疾病的本质,为疾病防治和新药的开发提供依据。由于存在大量的DNA序列数据,发展识别编码区域和基因的算法也是最大限度利用生物分子数据的要求。另外,从实验和计算的关系来看,在有些情况下,由实验测定的编码区域并不一定完整,必须结合计算找到并证实所有的外显子(exon)。
从编码区域可以推导出基因的结构及对应的蛋白质序列。就目前分子生物学技术的发展现状而言,实验测定DNA序列要比测定蛋白质序列容易得多,因此可以通过实验测定一段基因的序列,并由此推导蛋白质的氨基酸序列。实际上许多蛋白质序列就是直接从为其编码的DNA序列而获得的。然而要想由DNA序列直接得到蛋白质序列并非易事。首先由于许多蛋白质被编码在DNA序列的不同区域,当给定一段DNA序列,生物学家必须猜测编码区域(即基因)从什么地方开始,到什么地方结束。另外,由于人类基因组所拥有的DNA序列比编码蛋白质所需的多得多,给定的一段DNA序列可能不为任何蛋白质编码。真核基因外显子不连续是基因识别中的一个困难,为解决这个问题,必须首先能够识别基因的剪切位点。
有许多线索可用于帮助寻找基因。若试图发现在DNA序列中哪一部分为蛋白质编码,那么了解多肽可能被编码在哪个阅读框(6种可能的阅读框)中将有助于发现基因。如果某个阅读框对应的一段序列含有许多终止密码子(stop codon ),则它极少可能成为编码区域。这虽然不能准确地说明蛋白质编码区域从什么地方开始,到什么地方结束,但却可以帮助猜测编码区域位于何处。密码子使用偏性、DNA序列中表示调节信号的特征序列、基因表达过程的特征等,都可用以推测在DNA序列中为蛋白质编码的区域处于什么地方。在过去的十几年中,已发展了一些用于识别翻译和转录特征和功能位点的算法。功能位点包括启动子、起始编码、剪切位点、内含子、外显子等。严格受约束的位点可以被准确定义,对这些位点的识别仅仅是字符串匹配的问题,否则的话,一般采用模式识别方法进行识别。一种定量的方法就是利用加权矩阵来表示在位点内每个位置上核苷酸的出现频率,这可用于检测序列的局部特征信号。有一些将加权矩阵作为查询条件的快速数据库搜索算法。目前在编码区域识别或基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。较准确的方法是基于统计的方法和人工神经网络方法。神经网络具有非线性映射能力,能够发现数据的高阶相关性。
利用现有数据发现基因是比较可靠的方法,例如使用EST数据或已经蛋白质序列数据可以证实基因预测的结果。使用 EST序列信息寻找新基因是当前国际上基因争夺战的热点。将理论识别方法与分子生物学实验结果结合起来,可以在一些特定的情况下较好地解决基因识别问题。
除寻找基因之外,详细分析非编码区域(如遗传调控区域)也是非常有意义的。可通过训练人工神经网络来识别一定的遗传信号。如果能够得到这种分析工具,则将比识别编码区域更为有用。对于DNA序列分析研究的最终目的是要全面掌握DNA遗传语言。目前生物信息学的大量工作是针对基因组DNA序列(Bishop,1998)。
使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热点和重点。在以往生物信息学数据分析处理中,一次数据处理的对象往往是单个或几个生物分子,而现在一块基因芯片就可以产生上千个基因的表达数据,数据处理量大幅度增加,数据之间的关系也格外复杂。对基因表达数据,在大规模数据集上进行分析、归纳,可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解遗传网络,提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向(Bassett et al.,1999)。
目前对基因表达数据的处理主要是进行聚类分析,将表达规律相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。所用方法有相关分析方法,模式识别技术中的层次式聚类方法,人工智能中的自组织映射神经网络。此外还有主元分析方法,利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征。进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。利用聚类分析的结果可以研究基因的启动子,分析表达模式相同的一类基因的启动子组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的启动子。虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。
最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
5、蛋白质结构预测
蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动无不与蛋白质有关。虽然遗传信息的携带者是核酸,但遗传信息的传递和表达不仅是在酶(蛋白质的一类)的催化之下,并且也是在各种蛋白质的调节控制下进行的。因此,分析处理蛋白质数据的重要性并不低于分析DNA序列数据。在分析处理蛋白质序列时将面对一个问题,即根据蛋白质序列预测蛋白质结构,也就是第二遗传密码的问题。这是一个更为复杂的问题,因为蛋白质序列和蛋白质空间结构之间的关系比DNA序列与蛋白质序列之间的关系复杂得多。蛋白质的结构由蛋白质序列所决定,这是一种基本认可的假设,但毕竟是一种假设。要证明这一点,就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系或规律。
蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质时需要了解蛋白质的空间结构。目前蛋白质序列数据库中大约有24万个蛋白质的序列数据,但在结构数据库PDB中,仅有7500个蛋白质的空间结构数据。虽然蛋白质结构测定方法有所改进,但仍不能满足实际的需要。核酸酶变性及重折叠实验,为从蛋白质的氨基酸序列预测蛋白质的三维空间结构提供了实验基础。直接从蛋白质序列预测蛋白质结构对研究蛋白质结构与功能关系十分有用,这也将促进蛋白质工程和蛋白质设计的发展。从原理上讲,蛋白质序列隐含了蛋白质折叠后的空间结构,理论上可以从氨基酸序列计算出自然折叠的蛋白质结构。但是由于蛋白质多肽链可能的构象是个天文数字,现有的计算能力不可能搜索整个构象空间,需采用一定的启发式方法寻找自由能最优或接近于最优的构象。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是a螺旋,还是b折叠,或是其它。在二级结构预测方面主要有以下几种不同的方法,即立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。尽管人们已经建立了许多二级结构的预测方法,但其准确率一般都不超过65%。这很可能是由于所有这些方法只利用序列的局部信息,预测时考虑的局部序列长度一般小于20个氨基酸残基。因为局部序列对二级结构的影响只占65%左右,所以在预测蛋白质二级结构时需要考虑全局信息和进化信息等。预测准确率超过70%的第一个软件是基于神经网络的PHD系统,该系统除使用序列的局部信息外,还使用了序列的进化信息。虽然二级结构预测的准确性有待提高,但其预测结果仍然能提供许多结构信息,尤其是当结构尚未解出时更是如此。
在空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构。这样,如果一个未知结构的蛋白质序列与另一个已知结构的蛋白质序列足够相似,那么就可以根据后者为前者建立近似的三维结构模型。运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作。得到蛋白质结构以后就可以进一步分析研究蛋白质的生物功能。
从生物分子数据的收集和管理到数据库搜索,从DNA序列和基因表达数据分析到蛋白质结构与功能的研究形成生物信息学研究的主线,进一步的工作还包括药物分子设计和蛋白质设计。本书着重讨论前面一部分内容,药物分子设计和蛋白质设计不在本书的讨论范围之中。从技术上讲,生物信息学在数据库技术、计算机网络技术及软件技术的有力支持下,生物分子信息的获取、存储以及查询已经得到解决。今后研究工作将着重于生物分子信息的处理、分析和解释,以期发现新的理论分析方法,设计实用的分析工具。
第六节 生物信息学所用的方法和技术
本节介绍在生物信息学研究中常用的方法和技术。
1、数学统计方法
生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法。无论是传统的生物学科还是现代分子生物学,需要对大量实验数据进行统计分析,发现研究对象内在的规律或者对象之间的联系。通过综合分析,建立合理的数学模型,定量地描述生物活动过程、活动规律或者本质特征。数据统计、因素分析、多元回归分析是生物学研究必备的工具(陈希孺,1992;王林书等,1999;杜荣骞,1999)。在生物信息学领域中许多分析工作,例如,分析DNA语言中的语义、分析密码子使用频率、识别基因等,都要用到数学统计方法。其中,隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain)。对于生物分子序列分析,马尔科夫链是一个很好的数学统计模型,因为马尔科夫链本身就是相继发生事件的序列,其特征是对于事件序列中的任何一个事件都有一个发生概率,这个概率依赖于该事件之前的若干个事件。其实,在生物信息学研究中应用的概率和数学统计方法都可以归结为一门介于生物和数学之间的边缘学科——生物数学(Biomathematics,徐克学,1999)。
2、动态规划方法
动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法(Giegerich,2000;唐焕文等,1994)。动态规划将比较复杂的问题划分为若干阶段,通过逐段求解,最终获得全局最优解。这种方法在解决一些复杂的组合问题中显示出优越性,尤其是在离散性问题方面,用动态规划方法去处理,往往比用线性规划或非线性规划方法更有效。所谓多阶段决策问题是指这样一类活动过程:它可以分为若干个相互联系的阶段,在每个阶段上都要作出决策,而每个阶段的决策确定以后,将会影响以后各阶段的活动及其决策,当所有阶段的决策确定以后,就完全确定了该问题的活动过程。各个阶段所确定的阶段性决策构成一个决策序列,成为总体决策。一般来说,由于每一阶段可供选择的决策往往不止一个,因此,对于整个过程,就会有许多可供选择的策略。若对应一个策略,可以由一个量化的指标来确定这个策略所对应过程的效果,那么,不同的策略就有各自的效果。在所有可供选择的策略中,对应效果最好的策略称为最优策略。将一个问题划分成若干个相互联系的阶段,选取其中的最优策略,这类问题就是多阶段决策问题。动态规划的理论和方法在求解多阶段决策问题中是卓有成效的,逆序递推法又是动态规划中基本方法的核心。
动态规划是在生物信息学中一种基本优化方法,在DNA序列或者蛋白质序列的比对(alignment)、基因识别、RNA结构预测、生物分子探针优化设计等方面有着重要的应用。动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解。在计算机中,以“图”作为求解动态规划问题的数据结构,图中的每个顶点代表一个局部问题。其中有一个顶点(起点)代表特别的局部问题,即问题的开始阶段,另有一个顶点(终点)代表全局问题。这样一个优化问题可以转化为在图中求出一条从起点到终点的最短路径(或者代价最小的路径)。
3、机器学习与模式识别技术
机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验(陈世福等,1997;王万森,2000)。机器学习属于人工智能技术,着重研究计算机如何获取知识,如何从给定的训练数据之中提取知识,提取数据处理规则,自动形成处理程序,提高系统解决问题的能力和准确性。在具体应用中,必须首先写好机器学习程序。学习程序通过对训练数据的分析和反馈,不断提高解决问题的能力(Baldi and Brunak,1998)。
图1.6 机器学习系统的基本结构
图1.6是一个机器学习系统的基本结构。环境向系统的学习部分提供信息,即训练数据;学习部分利用这些信息更新知识库,以增强系统执行部分完成任务的能力和准确性;执行部分根据知识库中的知识或规则,解决具体问题,同时把执行结果信息反馈给学习部分,通过矫正,进一步提高系统性能。影响学习系统设计的最重要的因素是环境向系统提供的信息的质量。知识库里存放的是指导解决问题的一般原则,但环境向学习系统提供的信息却是各种各样的。如果信息的质量比较高,则学习部分比较容易处理。如果向学习系统提供的是杂乱无章的信息,则学习部分的任务就比较繁重,设计起来也较为困难。知识库是影响学习系统设计的第二个因素。知识的表示有多种形式,比如一阶逻辑语句、产生式规则、语义网络和框架等等。执行部分是整个学习系统的核心,因为执行部分的动作就是学习部分力求改进的动作。
数据是机器学习的基础,对于生物分子数据也一样。在大多数情况下,生物信息学中的知识可以用序列的模式或者序列的特征来概括。
随着人工智能研究的进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习,因而引入了一些模拟进化的方法来解决复杂优化的问题。其中富有代表性的是遗传算法。遗传算法受到研究人员广泛重视是由于它采用随机搜索方法,具有自适应能力和便于并行计算。人们相信随机算法可以解决非线性全局优化问题,自适应方法可以解决机器学习问题,并行算法有极高的计算效率。遗传算法的生物基础是人类生理的进化及发展,这一种方法被称为进化主义。另一方面,神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。这两种方法与传统方法大相径庭,因而近年来许多科学家致力于这两种方法的研究。
模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中(边肇祺,1988)。模式识别的关键是通过数据分析,提取分类对象的本质特征,建立分类特征模型。在此基础上设计模式分类规则和分类器,判别待识别模式的分类情况。分类特征模型描述各种目标对象的特征,以便于利用特征进行识别。模式识别主要有两种方法,一种是根据对象的统计特征进行识别,另一种是根据对象的结构特征进行识别。在生物信息学中,无论是基因识别,还是DNA序列上的功能位点和特征信号的识别,或者是蛋白质序列特征分析,都需要用到模式识别。
在机器学习中,数据分类与模式识别密切相关,即按照数据的特征进行分类。与数据分类相关的另一种数据分析方法是数据聚类,这两种方法都与机器学习相关,但方法相差甚远。数据分类为监督学习,而数据聚类则是非监督学习。前者在学习过程中接受外界输入的学习指导信号,而后者完全靠自身的能力进行学习。数据聚类是将物理的或抽象的对象分成几个群体,在每个群体内部,对象之间只有较高的相似性,而在不同群体之间,相似性则比较低。一般地,一个群体也就是一个类,但与数据分类不同的是,聚类结果主要基于当前所处理的数据,我们事先并不知道分类结构及每个对象所属的类别。另外,数据聚类计算量大,其时间复杂度也要比数据分类大得多。数据聚类在基因表达数据分析中有重要的应用。
4、数据库技术及数据挖掘
在生物信息学中,数据库技术是最基本的技术。生物分子信息的存储、管理、查询等功能是建立在数据库管理系统之上。目前的分子信息数据库大都采用关系数据库管理系统。
随着数据库、计算机网络和人工智能等技术的发展,出现了一种新的信息管理技术,即数据仓库。数据仓库是从多个内容相关的、物理和逻辑上都相互独立的数据源中提取面向主题的数据集合,通过 Internet将这些数据复制到一个数据存储中心,进行重新组织与集成,从而将一个海量的数据库展现在用户面前。数据仓库为特定的应用提供服务,提供统一的用户接口,用户可以借助于数据仓库直接完成对多种数据的查询、分析和决策。另一种相关技术是虚拟数据库技术(Virtual Database,简称 VDB),虚拟数据库可以对不同数据源中的数据进行联合查询,提供对数据分散问题的求解。虚拟数据库技术具有收集、组织和集成来自不同数据源中的数据并以统一的关系数据库系统的形式提供给应用程序的能力,但是虚拟数据库中数据的物理存贮是分散在Internet的不同站点。从数据库的角度看,虚拟数据库提供了多数据源的一个统一的平台。
多维数据分析是数据仓库技术最重要的特点。所谓多维数据分析是指以多种方式来组织数据和显示数据,与数据挖掘(data mining)、知识发现(knowledge discovery)和决策支持等功能紧密联系。随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,数据理解和数据产生之间出现了越来越大的距离。在堆积如山的数据中包含着许多待提取的有用知识,人们迫切需要新一代的计算技术和工具来帮助开采数据,并加以提炼,使之成为有用知识。于是,一个新的研究领域——知识发现应运而生。由于蕴藏知识的数据信息大多存储于数据库中,因此又称作数据库中的知识发现 (Knowledge Discovery in Database)或者数据挖掘。所谓数据挖掘是从大量不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识(郑宏珍等,1999)。数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式(Chen et al.,1996;Usama,1996)。数据挖掘主要采用人工智能中的机器学习、知识处理、神经网络等技术,将传统统计分析算法、计算智能方法与数据库技术相结合,这方面的研究包括数据挖掘与知识发现的算法的研究及其开发工具的研究。数据可视化是数据挖掘技术的另一个重要组成部分(段晓君等,2000)。
数据挖掘是从大量数据中抽象潜在的有用信息的过程,该过程分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析。由于应用领域的不同,数据的类型也不同,如关系数据、结构化数据、超文本数据、多媒体数据、空时数据等。一个强大的数据挖掘系统应能有效地处理这些复杂的数据类型。研究和分析生物信息之间的复杂关系、提取生物学知识和生物活动规律,必须应用数据挖掘技术,例如挖掘基因组数据(Birney et al.,2001)。
5、人工神经网络技术
人工神经网络(Artificial Neural Network, 简称ANN)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型(焦李成,1993)。人工神经网络是对大脑神经网络的模拟,这种模拟既是在功能上的,也是在结构上,这与传统的串行计算机有着本质的区别。
一个具体的人工神经网络是由大量的、同时也是很简单的处理单元广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特性,但它并不是人脑神经网络系统的真实写照,而是采用现有的计算机来模拟生物体中神经网络的某些结构和功能。它可以通过学习和自组织过程把专家知识结合进一个数学框架中来完成模式特征的提取、分类和识别等功能,而不需要任何对数据和噪声的先验统计假设,也不需要把专家知识和经验归纳成严密清晰的条文。一般认为,人工神经网络是一个高度复杂的非线性动力学系统,它具有较强的自学习、自组织、自适应、记忆、联想和推理等能力。由于它的自适应性质,神经网络在处理实际问题中用“样本学习”的机制替代了传统的编程机制,所以特别适合对所要解决的问题了解很少或完全不了解但又存在大量训练数据集的情况。而且由于神经网络基本处理单元之间存在大量的联系,它能处理噪声数据,具有自容错性。同时一个多层网络能够获得输入数据之间的高阶相关关系。
人工神经网络以其独特的结构和信息处理的方法在许多领域得到了成功的应用,特别是在解决模式识别问题和优化问题方面,神经网络具有非常强的能力,取得了显著的成效。生物信息学中的许多问题可以归结为模式识别问题和优化问题,因此,神经网络在生物信息学中具有重要的应用,也取得了成功。如在基因识别和蛋白质结构预测方面,相对于其它方法,神经网络往往能够取得更好的结果。
有许多不同的神经网络模型,在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。BP网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。已经证明:任何在闭区间内的一个连续函数都可以用一个隐藏层的BP网络来逼近,也就是说,一个三层反向传播神经网络可以完成任意连续的维数据到维数据的映射。
标准的BP网由三层神经元组成:输入层、隐藏层和输出层。输入层是从外界环境接受信息,输出层则给出神经网络系统对外界环境的反映,隐藏层不象输入输出层那样和外界有直接的联系,它从网络内部接受信息,所产生的输出也只用于神经网络系统中的其它处理单元,主要是完成整个网络的非线形特征提取。
6、专家系统
专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用。专家系统利用知识和推理机解决那些需要特殊的重要的人类专家知识才能解决的复杂问题(施鸿宝等,1990;王万森,2000),所用的知识和推理过程可认为是最好的领域专家的专门知识的一个模型。专家系统是人工智能领域里的一个重要分支,在生物信息学研究中也有着应用,如用于基因识别。
如图1.7所示,专家系统一般由六个部分组成:知识库、数据库、知识获取部分、推理机、解释机构和使用界面。其中知识库是专家系统的第一重要组成部分,用于存储从专家处得到的关于某一特定领域的专门知识和经验,专家的知识和经验以一定的知识表示形式(如产生式规则、语义网络等)存放在计算中,并在用户需要时,以智能的方式帮助解决问题,提供参考性决策。知识库中的知识通常分为两类,一类领域的事实性知识,或广泛公用的知识,另一类是启发性知识,是领域专家在长期研究和实践过程中积累起来的经验总结。数据库也称全局数据库或综合数据库,用于存储有关领域问题的事实、数据、初始状态和推理过程中得到的各种中间数据及中间目标。数据库是专家系统的支撑部分,相当于工作存贮器。知识获取就是把解决问题所用的专门知识从知识源(比如专家、书本、资料库和知识工程师自己的经验等)中提取出来,经过整理以后,存放在知识库中。知识获取方式大致上可以分为两种,一种是由知识工程师向领域专家询问有关知识,经过整理编辑后将知识转换成计算机表示形式,送入知识库。另一种是针对大量数据进行机器学习,分析、总结和抽取出有用的新知识,这是更高层次的知识获取方式。专家系统的另一个重要部分是推理机,由它来控制和协调整个系统,并根椐当前输入的数据和知识,按一定的推理策略,去解决当前的问题,推导出结论。其中推理策略也是一种知识,是关于利用知识进行推理的知识,又称“元知识”。解释机构用于对求解过程做出说明,向用户解释系统的结论以及如何得到结论,并回答用户提出的各种问题。专家系统使用界面一方面从领域专家或人工智能(AI)专家那里取得知识,增强知识库,另一方面负责接受用户输入的信息,并把信息转换成系统的内部表示形式,然后把这些内部表示交给相应的部件去处理,系统最终将处理结果返回给用户。
7、分子模型化技术
分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术。分子模型化是进行分子设计的基础(Richards,1988; Jameson,1989)。分子图形学(Molecular Graphics)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功(Olson and Pique, 1998)。
分子图形学充分应用计算机图形学的方法和技术,以三维图形方式显示分子的三维结构,显示分子的理化或电子学特性,显示分子间的相互作用。可用线状模型、球棒模型、空间填充模型等显示分子的三维结构,特别是在球棒模型和空间填充模型下,加上透视和光线投影技术,使得所显示的分子生动逼真。用户对分子进行平移、旋转、缩放等图形操作,通过交互方式观察分子的构象和形状,从不同的角度分析分子结构或分析分子间的相互作用(Tollenaere and Janssen, 1988; Barlow and Perkins,1990)。对于DNA分子,我们可以直观地观察双螺旋结构,看到两条链的走向,还可以研究碱基之间的氢键配对。对于蛋白质分子,既可以观察其结构骨架,可以观察其外观形状,也可以研究其活性部位或结合部位的结构(Gross and Duane, 1986)。在药物分子设计方面,可以应用分子模型化技术研究蛋白质与小分子的相互作用,设计与特定靶分子相适应的先导化合物。
利用分子模型化技术,还可以构建分子的结构模型。对于一个未知结构的分子,首先将该分子分解为若干个分子片段,从结构库中取出这些分子片段的结构,将各分子片段组装成完整的分子结构,然后再通过结构优化得到最终的结构。
8、量子力学和分子力学计算
量子力学(Quantum Mechanics)是现代物理学的理论基础之一,是研究微观粒子运动规律的科学,它人们对物质世界的认识从宏观层次跨进了微观层次(Atkins, 1983; von Rague, 1988)。量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用。量子力学与经典力学的差别表现在对粒子的状态和力学量的描述及其变化规律上。在量子力学中,粒子的状态用波函数描述,它是坐标和时间的复函数。将量子力学的基本原理和方法应用于化学,形成量子化学。量子化学着重研究分子结构、性能,研究结构与性能之间的关系,研究分子之间的相互作用,研究分子体系的反应等问题(Clark 1985; 江逢霖,1987)。
分子力学(Molecular Mechanics)方法是一种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质。常用的计算有机小分子与生物大分子的力场有MM2、CHARMM、Tripos等。应用分子力学方法可以进行分子的结构优化、构象分析、给体-受体相互作用计算等工作。分子力学方法忽略电子运动,将系统的能量看成为各个原子位置的函数,一般从键能和非键能两个方面描述系统的势能。其中键能包括化学键的伸缩能、键角的弯曲能及二面角的扭转能,非键能包括所有非成键原子之间的相互作用,如静电相互作用、范德华(van der walls)作用、氢键作用等(Burkert and Allinger, 1982)。分子力学计算的关键是能量计算公式中的参数,或力场参数。力场参数有各种来源,包括从头算(ab initio)和半经验计算结果、实验观察结果等(Weiner et al.,1984)。能量函数的极小值对应于分子体系能量的局部最小点。在许多情况下,分子力学的计算结果与量子力学计算结果同样准确,而所用的计算时间非常短。
在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分子力学。从计算结果的准确性来讲,这方面的计算工作应该用量子力学来完成,但是由于计算量的问题,量子力学只适合于比较小的分子体系。生物大分子体系太复杂,包含几千个原子,超过了目前量子力学方法可以处理的体系范围。在量子力学计算中,需要考虑待计算的分子体系中的电子,即使在半经验方法中忽略掉一些电子,其计算量仍然很大。因此,需要考虑其它方法(van Duijnen, 1986),如分子力学方法(Wimmer,1988;Leach, 1996)。当然,分子力学不能象量子力学那样提供有关电子分布的信息。量子力学可以用于确定分子力学势函数的参数,量子力学也可以在研究分子体系局部性质时起作用。
9、生物分子的计算机模拟
传统的生物分子研究主要是实验方法,通过生物学实验分析和表征生物分子,如利用测序技术确定DNA分子的序列,通过分子遗传学方法确定基因的多态性,通过X-射线晶体衍射确定蛋白质分子的结构,通过生化实验研究生物大分子之间的相互作用、药物分子与靶分子的结合。所谓计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质(Leach,1996;寿天德等,1998)。对于生物分子,可以模拟大分子与大分子之间的相互作用,模拟生物大分子与具有活性的小分子之间的相互作用,研究分子之间的识别、特异性结合。生物分子的计算机模拟对于从理论上解释实验现象、指导设计实验方案、发现新的现象及产生新的科学假设具有重要的作用。计算机模拟实验的过程及作用如图1.8所示。
在进行模拟之前,首先为待模拟的分子体系建立模型,描述分子内和分子之间的相互作用。常用的两种理论模型分别是量子力学和分子力学,它们可以计算分子系统的能量,分析当分子或原子位置发生变化时,系统能量的变化。在进行分子模拟的第二个阶段,利用所建立的模型进行模拟实验,如进行分子动力学(Molecular Dynamics)或蒙特卡罗(Monte Carlo)模拟。最后分析模拟结果,与已知的实验现象对照比较,验证模型是否合理。如果模型不合理,则改进模型,重新模拟。在得到一个合理的模型之后,我们就可以在实验之前进行计算机模拟,从而进行“预实验”。
分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最常用的技术。分子动力学针对分子体系进行动力学计算,由此得到系统的时间平均性质,其计算结果包括系统的静态性质和动态性质。通过应用牛顿运动方程,推导系统中各个原子的位置,得到所有原子的运动轨迹,并根据轨迹计算各种性质(Haile, 1992)。分子动力学模拟本质上是一种统计物理方法,在物理和化学上早有应用。用此方法可以研究蛋白质的构象,模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。在能量优化方面,分子动力学能够跨过较大的势垒,获得低能量的构象。可以不同方式进行分子动力学模拟,包括体积恒定和能量守恒的动力学模拟、恒温恒容动力学模拟和恒温恒压的动力学模拟。根据不同的研究体系和研究重点,可选用不同的模拟方法。
在分子动力学模拟中,系统各个状态在时间上是紧密相关的,而在蒙特卡罗模拟中,每个状态仅仅依赖于其前面一个状态,与其它状态无关,各个状态在时间上没有关系。蒙特卡罗方法产生一系列随机状态,并根据一定的准则决定是否接受新的构型。这样的准则保证得到一个新状态的概率等于Boltzmann因子。通过蒙特卡罗,产生低能量状态的概率比产生高能量状态的概率大(Kaols and Whitlock, 1986)。蒙特卡罗方法本质上是一种随机统计方法。
分子动力学与蒙特卡罗方法最大的差别在于分子动力学能够提供系统与时间相关的性质。另外,在系统总能量方面,分子动力学除考虑系统的势能之外,还考虑系统动能的贡献,而蒙特卡罗方法仅考虑系统的势能。
与分子动力学和蒙特卡罗方法相关的另一种模拟方法是模拟退火方法 (Simulated Annealing,英文缩写为SA)。模拟退火方法可以对系统进行优化,如对多变量函数进行优化,其名称借用加热后逐渐冷却的物理过程。该方法是由 Kirkpatrick等人于 1983年首先提出的一种经典的随机动力学方法(Kirkpatrick et al.,1983),1986年由 Ceperley和 Alder将该方法推广到量子系统(Ceperkey and Alder,1986)。在模拟退火过程中,缓慢降低系统的温度,直到系统不再变化。在进行模拟之前,给系统确定一个初始状态,然后通过随机置换不断形成新的状态。如果一个新状态的能量低于原来的状态,则系统无条件接受新的状态。如果新状态的能量高于原有状态,则系统按照一定的概率接受新状态。这样的过程使得系统不断地向低能量状态迁移,最终到达能量最低点。但是系统状态的改变并不总是向能量减少的方向进行,也可以按照一定几率向能量增加的方向改变,当然,温度越低,系统向能量增加方向改变的几率就越小。这种机制使系统在温度较高时能够很快跃出能量局部极小区域,不至于很快陷入初始状态附近的局部极小中,因而它是一种全局性的极小化方法。系统状态的改变是不连续的,它按照某种几率分布(称为访问分布)随机变化,随着温度的降低,访问分布的宽度也逐渐减小(Gould H,Tobochnik J. 1988; 张有广等,2001)。模拟退火是一种通用的算法,可以和其他方法联合使用,如将模拟退火引入遗传算法,对非线性问题进行优化(熊范伦等,2000)。
10、因特网(Internet)技术
通过因特网收发电子邮件(E-mail)是许多人都熟悉的通讯手段,电子邮件已经成为科学界一种十分重要的个人通讯手段。“新闻组”则是广播电子邮件消息的一种方法。使用者可以在网上申请参加不同的新闻组,订阅有关新闻,参加专题讨论。新闻组中的全部文章就会发送到订户手中。因特网使用者也可以通过FTP协议从特定服务器下载有关文件,或上传文件。
目前,几乎所有生物信息数据库或资源库都提供Internet网络服务,使用者可以通过网络查询或搜索所需要的生物信息,使用分析工具。在大多数情况下,你可以查到你所想要的生物分子数据,如原始的序列和结构数据,经过加工处理以后的数据。同时,你也可以将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回给你。Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所(Swindell et al.,1996)。
作为一般的生物学研究人员,只要会用Internet就可以了。但是,对于生物信息学研究和开发人员,需要掌握先进的Internet技术,如虚拟数据库技术、数据动态交换技术、网络程序设计技术等,只有这样才能研制出高效的网络数据库系统(包括网络应用软件)。
参考文献:
1、 边肇祺. 1988. 模式识别. 清华大学出版社.
2、 陈润生. 1999. 生物信息学. 生物物理学报. 15(1):5-12.
3、 陈世福,陈兆乾. 1997. 人工智能与知识工程. 南京大学出版社.
4、 陈希孺. 1992. 概率论与数理统计. 中国科学技术大学出版社.
5、 陈竺,强伯勤,方福德. 2001. 基因组科学与人类疾病. 科学出版社.
6、 丁达夫,梁卫平,陈杰. 1998. 生物信息学. 科学,50(2):20-23.
7、 杜荣骞. 1999. 生物统计学. 高等教育出版社.
8、 段晓君,杜小勇,易东云. 2000. 可视化数据挖掘技术及其应用. 计算机应用,20(1):54-56.
9、 郝柏林,张淑誉. 2000. 生物信息学手册. 上海科学技术出版社.
10、 贺林. 2000. 解码生命-人类基因组计划和后基因组计划. 科学出版社.
11、 江逢霖. 1987. 量子化学原理. 复旦大学出版社.
12、 焦李成. 1993. 神经网络系统理论. 西安电子科技大学出版社.
13、 李林. 2000. 蛋白质组学的进展. 生物化学与生物物理进展,27(3):227-231.
14、 李伟,印莉萍. 2000. 基因组学相关概念及其研究进展. 生物学通报,35(11):1-3.
15、 李伟章,恽榴红. 1999. 生物信息学与新药研究. 科学,51(2):17-20.
16、 刘洪斌. 2000. 生物信息学. 生物工程进展,20(6),58-62.
17、 欧阳曙光,贺福初. 1999. 生物信息学:生物实验数据和计算技术结合的新领域. 科学通报,44(14):1457-1468.
18、 施鸿宝,王秋荷. 1990. 专家系统. 西安交通大学出版社.
19、 寿天德,徐耀忠. 1998. 现代生物学导论. 中国科学技术大学出版社.
20、 谭文斌,朱定尔. 1998. 迎接21世纪生命科学的新时代—基因组与蛋白组计划时代. 医学与哲学,19(9):449-452.
21、 唐焕文,秦学志. 1994. 最优化方法. 大连理工大学出版社.
22、 王林书,鲍三平,赵瑞清. 1999. 概率论与数理统计. 科学出版社.
23、 王万森. 2000. 人工智能原理及其应用. 电子工业出版社.
24、 解涛,梁卫平,丁达夫. 2000. 后基因组时代的基因组功能注释. 生物化学与生物物理进展,27(2):170.
25、 熊范伦,邓超. 2000. 退火遗传算法及其应用. 生物数学学报,15(2):150-154.
26、 徐克学. 1999. 生物数学. 科学出版社.
27、 杨焕明等. 2000. 生命大解密-人类基因组计划. 中国青年出版社.
28、 张有广,李炜疆. 2001. 推广的模拟退火算法在分子对接中的应用. 内蒙古大学学报(自然科学版),32(1):20-24.
29、 赵剑华等. 2000. 功能基因组学的研究内容与方法. 生物化学与生物物理进展,27(1):6-8.
30、 赵善荣,林茂伟,陈凯先. 1997. 生物信息学在药物设计中的应用. 药学进展,21(2):65-70.
31、 郑宏珍,柳明欣. 1999. 数据挖掘及其工具的选择. 计算机应用,19(10):109-110.
32、 钟义信. 1996. 信息科学原理. 北京邮电大学出版社.
33、 Altschul SF, Gish W, Miller W, Myers EW,Lipman DJ. 1990. Basic local alignment search tool. J. Mol. Biol., 215:403-410.
34、 Altchul SF, et al. 1997. Gapped blast and psi-blast: a new generation of protein database search programs. Nucleic Acids Res., 25(17): 3389-3402.
35、 Atkins PW. 1983. Molecular Quantum Mechanics. Oxford, Oxford University Press.
36、 Attwood TK, Parry-Smith DJ. 1999. Intruduction to Bioinformatics. AWL Press.
37、 Baxevanis AD, Francis BF. 1998. Bioinformatics: A practical guide to the analysis of gnes and proteins. John Wiley & Sons, New York.
38、 Baldi P, Brunak S. 1998. Bioinformatics: the machine learning approach. The MIT Press.
39、 Baltimore D. 2001. Our genome unveiled. Nature, 409:814-816.
40、 Barlow DJ, Perkins TD. 1990. Applications of interactive computer graphics in analyses of biomolecular structures. Nat Prod Rep, 7(4):311-326.
41、 Bassett DE, Eisen MB, Bogushi MS. 1999. Gene expression informatics - it’s all in your mine. Nature Genetics supplement, 21:51-55.
42、 Benton D. 1996. Bioinformatics - Principle and Potential of a New Multidisplinery Tool. TIBTECH, 14:261-272.
43、 Birney E, Bateman A, Clamp ME, Hubbard TJ. 2001. Mining the draft human genome. Nature, 409:827-828.
44、 Bishop MJ. 1998. Guide to Human Genome Computing. ACADEMIC PRESS, USA.
45、 Bishop M. 1999. Genetics Database. Academic Press.
46、 Bogusti M. 1994. Bioinformatics. Curr. Opin. Genet. Dev., 4(3): 383-388.
47、 Botstein D, Cherry JM. 1997. Molecular linguistics: extracting information from gene and protein sequences. Proc Natl. Acad. Sci., 94(11): 5506-5507.
48、 Burkert U, Allinger NL. 1982. Molecular Mechanics. ACM Monograph 177. Washington D.C., American Chemical Society.
49、 Casari G, et al. 1995. Challenging times for bioinformatics. Nature, 376(6542): 647-648.
50、 Ceperkey D,Alder B. 1986. Quantum Monte Carlo. Science, 231:555-560.
51、 Chargaff E, Vischer EM, Doniger R, Green C,Misani F. 1949. The composition of the desoxypentose nucleic acids of thymus and spleen. J. Biol. Chem., 177:405-416.
52、 Chee M, Yang R, Hubbel, et al. 1996. Accessing genetic information with high-density DNA arrays. Science, 274:610-613.
53、 Chen MS, Han HW, Yu PS. 1996. Data mining: an overview from a database perspective. IEEE Trans Knowledge and Data Engineering, 8(6):866-883.
54、 Claverie JM. 2001. GENE NUMBER: What If There Are Only 30,000 Human Genes? Science, 291:1255-1257.
55、 Clark T. 1985. A handbook of Computational Chemistry: A Practical Guide to Chemical Structure and Energy Calculations. New York, Wiley-Interscience.
56、 Collins FS, et al. 1998. New goals for the U.S. human genome project: 1998-2003. Science, 282(5389):682-689.
57、 Consden R, Gordon AH, Martin AJP,Synge RLM. 1947. Gramicidine S: the sequence of the amino-acid residues. Biochem. J., 41:596-602.
58、 Dayhoff M. 1969. Atlas of Protein Sequence and Structure 1969, v. 4. Natl. Biomed. Res. Found., Silver Spring.
59、 Dayhoff MO, Schwartz RM, Orcutt BC. 1978. A model of evolutionary change in proteins . In Atlas of Protein Sequence and Structure. Dayhoff MO ed. Washington.DC: National Biomedical Research Foundation). 345-352.
60、 Doolittle RF. 1981. Similar amino acid sequences: chance or common ancestry? Science,214(4517):149-159.
61、 Drews J. 2000. Drug Discovery: A Historical Perspective. Science, 287:1960-1964.
62、 Futreal PA, et al. 2001. Cancer and genomics. Nature, 409:850-852.
63、 Galas DJ. 2001. Sequence interpretation: Making Sense of the Sequence. Science, 291:1257-1260.
64、 Gatlin LL. 1972. Information Theory and the Living System, Columbia University Press, New York and London.
65、 Gershon D. 1997. Bioinformatics in a post-genomics age. Nature, 389: 417–418.
66、 Gibbs AJ, McIntyre GA. 1970. The diagram, a method for comparing sequences. Its use with amino acid and nucleotide sequences. Eur J Biochem,16(1): 1-11.
67、 Giegerich R. 2000. A systematic approach to dynamic programming in bioinformatics. : Bioinformatics, 16(8): 665-677.
68、 Gingeras TR, MIlazzo JP, Roberts RJ. 1978. A computer assisted method for the determination of restriction enzyme recognifion sites. Nucleic Acids Res, 5(11): 4105-4127.
69、 Gould H,Tobochnik J. 1988. Computer Simulation Methods, Addison-Wesley Publishing Company: New York.
70、 Gross E, Duane J. 1986. Protein graphics: historical development, future directions and microcomputer applications. Comput. Appl. Biosci., 2(3): 173-179.
71、 Hagen JB. 2000. The origins of bioinformatics. Nat Rev Genetics, 1(3): 231-236.
72、 Haile JM. 1992. Molecular Dynamics Simulation. Elementary Methods. New York. John Wiley.
73、 Hieter P, Boguski M. 1997. Functional genomics: it’s all how you read it. Science, 278(5338): 601-602.
74、 Jameson BA. 1989. Modelling in peptide design. Nature, 341(6241): 465-466.
75、 Jimenez-Sanchez G, Childs B, Valle D, 2001. Human disease genes. Nature, 409:853-855.
76、 Joseph H. Nadeau, et al. 2001. Sequence interpretation: Functional Annotation of Mouse Genome Sequences. Science, 291: 1251-1255.
77、 Kahn P. 1995. From Genome to Proteome: Looking at cell’s proteins. Science, 270(5235):369-370.
78、 Kaols MH, Whitlock PA. 1986. Monte Carlo Methods. Volume 1: Basics. New York, Wiley.
79、 Kirkpatrick S,Gelatt JrCD,Vecchi MP. 1983. Optimization by simulated annealing. Science,220:671-674.
80、 Korn LJ, Queen CL,Wegman MN. 1977. Computer analysis of nucleic acid regulatory sequences. Proc Natl Acad Sci U S A,74(10):4401-4405.
81、 Leach AR. 1996. Molecular Modelling: Principles and Applications. Addison Wesley Longman Limited, England.
82、 Li WH, et al. 2001. Evolutionary analyses of the human genome, Nature, 409:847-849.
83、 Lim HA, Canto CR. 1995. Bioinformatics and Genome Research. World Scientific Publish.
84、 Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J. 2000. Gene index analysis of the human genome estimates approximately 120,000 genes. Nat Genet, 25(2): 239-240.
85、 Lipman DJ, Pearson WR. 1985. Rapid and sensitive protein similarity searches. Science,227(4693): 1435-1441.
86、 Luscombe NM, Greenbaum D, Gerstein M. 2001. What is Bioinformatics? A proposed definition and overview of the field. Method of Information in Medicine, 40:346-358.
87、 Lyall A. 1996. Bioinformatics in the Pharmaceutical Industry. Bioinformatics, 14:308-321.
88、 Marshall A, Hodgson J. 1998. DNA chips: An array of possibilities. Nature Biotechnology, 16: 27-31.
89、 Marshall E. 1996. Hot property: biologists who compute. Science, 272(5269): 1730-1732.
90、 McCallum D, Smith M. 1977. Computer processing of DNA sequence data. J Mol Biol,116(1): 29-30.
91、 Needleman S, Wunsch C. 1970. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol.,48:443-453.
92、 Olson AJ, Pique ME. 1998. Visualizing the future of molecular graphics. SAR QSAR Environ Res, 8(3-4): 233-247.
93、 Pearson WR, Lipman DJ. 1988. Improved tools for biological sequence comparison. Proc Natl Acad Sci USA,85(8): 2444-2448.
94、 Pellegrini M, et al. 1999. Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles. PNAS 96:4285-4288.
95、 Peltonen L, McKusick VA. 2001. GENOMICS AND MEDICINE: Dissecting Human Disease in the Postgenomic Era. Science, 291: 1224-1229.
96、 Pertea M, Salzberg SL, Gardner MJ. 2000. Finding genes in Plasmodium falciparum. Nature, 404(6773): 34-35.
97、 Pipas JM, McMahon JE. 1975. Method for predicting RNA secondary structure. Proc Natl Acad Sci USA,72(6): 2017-21.
98、 Richards WG. 1988. Computer-aided molecular design. Sci Prog, 72(288 Pt 4): 481-92.
99、 Roos DS. 2001. COMPUTATIONAL BIOLOGY: Bioinformatics--Trying to Swim in a Sea of Data. Science, 291:1260-1261.
100、 Salzberg SL, Searls DB, Kasif S. 1998. Computational Methods in Molecular Biology. ELSEVIER Science BV, Netherlands.
101、 Sanger F,Tuppy H. 1951. The amino-acid sequence in the phenylalanyl chain of insulin. Biochem. J.,49:463-490.
102、 Schuler GD, Boguski MS, Stewart EA, et al. 1996. A Gene Map of the Human Genome. Science, 274(5287): 540-546.
103、 Smith TF, Waterman MS. 1981. Identification of common molecular subsequences. J Mol Biol,147(1): 195-197.
104、 Spengler SJ. 2000. Bioinformatics in the Information Age. Science, 287:1221-1223.
105、 Stormo GD. 1987. Identifying coding sequence in nucleic acid & protein sequence analysis, a practical approach. Bishop MJ and Rawlings CJ, IRL Press.
106、 Swindell SK, Miller KR, Myers GSA. 1996. Internet for the molecular biologist. Horizon Scientific Press.
107、 Tollenaere JP, Janssen PA. 1988. Conformational analysis and computer graphics in drug research. Med Res Rev, 8(1): 1-25.
108、 Trifonov EN. 2000. Earliest pages of bioinformatics. Bioinformatics, 16(1): 5-9.
109、 Usama MF. 1996. Data mining and knowledge discovery: making sense out of data. IEEE Expert, 11(5):20-25.
110、 van Duijnen PT. 1986. Quantum chemistry and enzymes: a next step. Enzyme, 36(1-2):93-100.
111、 von Rague Schleyer P. 1988. Application of semi-empirical and ab initio quantum mechanical calculations. J Comput Aided Mol Des, 2(3): 223-224.
112、 Watson GD, Crick FHC. 1953. Molecular structure of nucleic acids: a structure for deoxyribose nucleic acid. Nature, 171(4356):737-738.
113、 Weiner SJ, et al. 1984. A New Force Field for Molecular Mechanical Simulation of Nucleic Acids and Proteins. J. Am. Chem. Soc., 106:765-784.
114、 Wilbur WJ, Lipman DJ. 1983. Rapid similarity searches of nucleic acid and protein data banks. Proc Natl Acad Sci USA,80(3): 726-730.
115、 Wimmer E. 1988. Future in biomolecular computation. J Comput Aided Mol Des, 1(4): 283-290.
116、 Zuckerkandl E,Pauling L. 1962. Molecular disease, evolution, and genic heterogeneity. In Kasha, M. and Pullman, B. (eds.), Horizons in Biochemistry. Acad. Press. New York, London, 189-225.
posted on 2023-12-20 19:00 王闯wangchuang2017 阅读(189) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2020-12-20 操劳一生的父亲,我拿什么拯救你?
2020-12-20 90后,单身的我们,该如何更好地尽孝?