数学与当代生命科学(吴家睿)
20世纪中期,随着蛋白质空间结构的解析和DNA双螺旋的发现,形成了以遗传信息载体核酸和生命功能执行者蛋白质为主要研究对象的分子生物学时代。分子生物学的诞生使传统的生物学研究转变为现代实验科学。但是,在生命科学领域的实验科学与其它实验科学如实验物理学相比,更多地是注重经验,而非抽象的理论或概念。此外,这些生物学家们大多关注定性的研究,以发现新基因或新蛋白质为主要目标,对于定量的研究,如分子动力学过程等没有给予足够的重视。尽管如此,现代生命科学在20世纪的下半叶还是取得了丰盛的成果。正如美国科学院院长分子生物学家阿尔伯特(B. Albert)所说,“在一个基因克隆占主要地位的时代,当今许多优秀的科学家在不具备任何定量研究的能力下仍然取得了巨大的成绩”。但是,随着后基因组时代的到来,生物学研究者的定量研究能力和知识已不再是可有可无的了。
大势所趋
英国生物学家保罗•纳斯(Paul Nurse) 因细胞周期方面的卓越研究成为了2001年度诺贝尔生理学或医学奖的得主。他曾在一篇回顾20世纪细胞周期研究的综述文章中以这样的文字结束:“我们需要进入一个更为抽象的陌生世界,一个不同于我们日常所想象的细胞活动的、能根据数学有效地进行分析的世界。”
也许基于同样的考虑,2000年10月美国国家科学基金会(NSF)的主任科勒威尔(R. Colwell)在向国会提交的报告中,称数学是当前所有新兴学科和研究领域的基础,要求下一年度对数学的资助要增加3倍以上,达到1.21亿元美金。在这些增加的预算中,有很大的一部分被用来支持数学与其它学科的交叉研究,尤其是数学与生物学的交叉研究项目。
尽管数学一直在现代生命科学中扮演着一定的角色,如数量遗传学、生物数学等。但真正体会到数学重要性的还是20世纪90年代生物学家。基因组学是这种趋势的主要催化剂。随着DNA序列测定技术的快速发展,20世纪90年代后期每年测定的DNA碱基序列以惊人的速度迅速增长。以美国的基因数据库(GenBank)为例,1997年拥有的碱基序列为1x109,次年就翻了一番,为2x109;到2000年GenBank已拥有近8x109个碱基序列。同样,在蛋白质组研究和转录组研究等快速推进的过程中,各种数据也在迅猛的增加。据估计,现在生物数据量可以达到每年1015字节。如何管理这些“海量”数据,以及如何从它们中提取有用的知识成为了对当前生物学家、数学家、计算机专家等的巨大挑战。由此引出了一门新兴学科:生物信息学(Bioinformatics)。此外,对细胞和神经等复杂系统和网络的研究导致了数学生物学(Mathematical Biology)的诞生。美国国家科学基金委员会为此专门启动了一项“定量的环境与整合生物学”的项目,以鼓励生物学家把数学应用到生物学研究中去。几乎在同一个时间,美国国立卫生研究院也设立了一项“计算生物学”的重大项目。
理解生命的新工具:模型
上面的论述也许会造成这样一种印象,数学在现代生命科学中的应用主要是在“海量”数据的处理方面。可以这样说,今天的确是有许多生物学家是从“计算”的角度来看待数学对生命科学的作用。然而,对于理解生命现象来说,计算是远远不够的。当我们把通过基因芯片获得的成千上万的实验数据喂进一台计算机,让计算机根据一定的运行程序吐出一堆堆的结论时,我们是否可以认为,我们已经理解了所要研究的生物学问题?不仅如此,我们也许还需要警惕,不要让计算机代替我们的思考。
对于今天的生命科学工作者,数学的价值应该体现在“模型化”(Modelling)方面。通过模型的构建,那些看上去杂乱无章的实验数据将被整理成有序可循的数学问题;通过模型的构建,所要研究的问题的本质将被清晰地抽象出来;通过模型的构建,研究者们的实验不再是一种随意的探索,而是通过“假设驱动”(Hypothesis-driven approach)的理性实验,就如同物理学家们的工作一样。
上个世纪的实验生物学家把生命视为一个线性的系统,力图以一种简单的因果关系来解释生命活动。通常在那些寻找新基因的研究者的内心深处,大多拥有一个“基因决定论”的愿望:一旦找到了某一种基因,就能解答一个生物学问题。癌症有“癌基因”,长寿有“长寿基因”,聪明有“聪明基因”,甚至犯罪都是由一种“犯罪基因”所造成。但是,几十年的研究轨迹,划出的却是一幅幅越来越复杂的图案。以人类发现的第一个肿瘤抑制基因p53来说,自1979年发现至今,已有近2万5千篇文章涉及到它;直接与p53相互作用的蛋白质多达数十种,新的还在发现之中。现在人们看到的p53已经是一个相当复杂的调控网络。显然,没有数学模型的帮助,要理解和分析p53的功能将不是一件容易的事。不久前,发现p53的生物学家之一莱文尔(A. J. Levine)和数学家一起,建立了一个解释p53调控线路的数学模型[1]。
数学不仅能帮助我们从已有的生物学实验和数据中抽象出模型和进行解释,它还可以用于设计和建造生物学模型,也许这些生物学模型在自然的状态下是不存在的。在这种意义上说,基于数学模型和假设进行的生物学实验将更接近我们所熟知的物理学和化学实验,更多的依赖于抽象和理性,不再是一门经验科学。
新世纪伊始,数学指导实验已成为了现实。不久前,美国的科学家在《自然》(Nature)杂志上报道了他们人工设计的生物模型。普林斯顿大学科学家设计了一个自然界不存在的控制基因表达的网络。这个网络可以周期性的调控大肠杆菌内一个外源基因的表达[2]。在同一期杂志上,波士顿大学的生物学家也报告了他们相类似的工作[3]。这两个工作的共同特点是,首先应用某种微分方程(两个实验室采用了不同的微分方程)进行推导和设计,然后再根据其设计去进行生物科学实验,如构造基因表达质粒,进行检测基因表达情况等。这些科学家认为:“这种‘网络的理性设计’可以导致新型的细胞工程和促进人们对自然界存在的调控网络的理解。”[2]
“万物皆数也”
数学常常被人视为工具。它的确也是非常有用的工具。但是,只要是作为工具,就具有可替换性。“条条道路通罗马”。工具就是道路,可以选择途径A,也可以选择途径B,只要能达到目的地就行。当然,有的可能是捷径,有的可能是弯路。但它们毕竟都不是唯一的。就如同过去的生命科学研究,没有数学也取得了不错的成绩。数学的应用显然会对现在和今后的生物学研究有帮助,但生物学家不用数学行不行呢?
人类对自然和生命的关注,通常体现在两个方面的问题:构成世间万物的本质是什么以及如何去认识和探寻这种本质。前一类问题是属于本体论,后一类问题则属于认识论。如果采用这样假设:生命的本质最终是体现在数学规律的构成上。那么,没有数学显然我们就不能真正和彻底地揭示出生命的本质。
DNA和蛋白质是两类最重要的生物大分子。它们通常都是由众多的基本元件(碱基、氨基酸)相互联结而成的长链分子。但是,它们的空间形状并非是一条平直的线条,而是一个规则的“螺旋管”。尽管在20世纪中叶人们就发现了DNA双螺旋和蛋白质α螺旋结构,但至今为止,人们还是难以解释,为什么大自然要选择“螺旋形”作为这些生物大分子的结构基础。
不久前,美国和意大利的一组科学家,利用离散几何的方法研究了致密线条的“最大包装”(Optimal Packing)问题,得到的答案是,在一个体积一定的容器里,能够容纳的最长的线条的形状是螺旋形 [4]。研究者们意识到,“天然形成的蛋白质正是这样的几何形状”[4]。显然由此我们能够窥见生命选择了螺旋作为其空间结构基础的数学原因:在最小空间内容纳最长的分子。凡是熟悉分子生物学和细胞生物学的人都知道,生物大分子的包装是生命的一个必要过程。作为遗传物质载体的DNA,其线性长度远远大于容纳它的细胞核的直径。例如构成一条人染色体的DNA的长度是其细胞核的数千倍。因此通常都要对DNA链进行多次的折叠和包扎,使长约5厘米的DNA双螺旋链变成大约5微米的致密的染色体。由此我们可以认为,生命遵循“最大包装”的数学原理来构造自己的生物大分子。
细胞是生命的基本组成单元和功能单元。而细胞分裂(又称为细胞增殖)是细胞最基本和最重要的活动。完成一次细胞分裂的活动称为细胞周期。不同物种的细胞周期的时间长短是不一样的,有着严格的调控。那么,是什么构成了细胞周期的“时钟”?最近的研究表明,对于酵母细胞而言,一种细胞周期调控蛋白的磷酸化程度有可能被用作细胞周期运行的“时钟”。这种被称为Sicl的蛋白质上有9个位置可以被蛋白激酶CDK进行磷酸化。当它被加上第1个磷酸基因至第5个磷酸基团的时候,其分子的行为没有出现变化。但是,一旦被加上第6个磷酸基团时,它就可以和一种称为Cdc4的蛋白发生相互作用,然后被蛋白酶降解,从而导致细胞进入DNA合成期(S期),最后完成细胞分裂。研究者详尽而深入的工作揭示出,Sicl蛋白的每一次磷酸化都有助于与Cdc4的相互作用,但只有到第6次或6次以上,其结合力才达到与Cdc4稳固的结合。此外,如果给Sicl蛋白人为装上一段外源氨基酸肽段,一次磷酸化就能使Sicl与Cdc4结合并导致其降解,这时Sicl控制细胞周期时间的功能就会丧失[5]。这个研究成果很典型地揭示了细胞是如何通过数量的控制来实现其生命活动。
古希腊著名的数学家毕达哥拉斯(Pythagoras)曾给后人留下过这样一个观点:“万物皆数也”。如果他的观点是正确的,作为大自然的杰作——生命,一定也是按照数学方式设计而成的。因此,数学不仅仅能够提升生命科学研究,使生命科学成为抽象的和定量的科学,而且是揭示生命奥秘的必由之路。
[1] Bar-Or R L, et al. Proc. Natl. Acad. Sci. USA, 2000, 97:11250
[2] Elowitz M B & Leibler S Nature, 2000, 403:335
[3] Gardner T S, et al. Nature, 2000,403:339
[4] Maritan A, et al Nature, 2000,406:287
[5] Nash P, et al. Nature, 2001, 414: 514