基于注意力对抗生成网络的AlphaFold从氨基酸序列建立三维蛋白质结构

AlphaFold可以准确预测蛋白质结构的3D模型,并具有加速生物学各个领域研究的潜力。

 

蛋白质对于生命至关重要,几乎可以支持其所有功能。 它们是大型复杂分子,由氨基酸链组成,蛋白质的作用很大程度上取决于其独特的3D结构。 弄清楚蛋白质折叠成什么形状被称为“蛋白质折叠问题”,并且在过去的50年中一直是生物学上的巨大挑战。 在一项重大的科学进步中,两年一次的蛋白质结构预测关键评估(CASP)的组织者认为,我们最新的AI系统AlphaFold版本可以解决这一挑战。 这一突破表明,人工智能可以对科学发现产生影响,并可以极大地加速解释和塑造我们世界的一些最基本领域的进步。

 

1、生命构筑的模块

在你身体的每一个细胞里,数十亿个微小的分子机器在努力工作。它们让你的眼睛能够探测到光线,让你的神经元发出信号,让你的DNA中的“指令”被读取,这些都让你成为独一无二的自己。

这些精致复杂的机器是蛋白质。它们不仅支撑着你身体中的生物过程,也支撑着每一个生物过程。它们是生活的基石。

目前,已知的蛋白质约有2亿种,每年还发现3000万种。每一个都有一个独特的三维形状,决定了它的工作原理和作用。

但是计算出蛋白质的确切结构仍然是一个昂贵且通常耗时的过程,这意味着我们只知道科学已知的一小部分蛋白质的精确三维结构。

 

找到一种方法来弥补这一迅速扩大的差距,并预测数百万未知蛋白质的结构,不仅可以帮助我们应对疾病,更快地找到新的药物,而且可能还可以解开生命本身是如何运作的奥秘。

2、蛋白质折叠问题

如果您能解开一种蛋白质,您会发现它就像一串由一系列不同化学物质(称为氨基酸)制成的珠子。

这些序列是根据生物体DNA的遗传指令组装而成的。20种不同类型的氨基酸之间的吸引和排斥会导致字符串折叠成“自发折纸”壮举,从而形成蛋白质3D结构的复杂卷曲,环行和褶皱。几十年来,科学家一直在尝试寻找一种仅根据氨基酸序列即可可靠确定蛋白质结构的方法。这一巨大的科学挑战被称为蛋白质折叠问题。

多年来,这一直是密集科学研究的重点,它使用各种实验技术来检查和确定蛋白质结构,例如核磁共振和X射线晶体学。 这些技术以及诸如冷冻电子显微镜之类的较新方法取决于广泛的反复试验,每个结构可能要花费数年的艰辛和艰巨的工作,并且需要使用数百万美元的专用设备。

    蛋白质折叠问题克里斯蒂安·安芬森(Christian Anfinsen)在1972年诺贝尔化学奖的获奖演讲中著名地提出,从理论上说,蛋白质的氨基酸序列应完全决定其结构。 这一假设引发了长达五年的探索,希望能够仅基于蛋白质的1D氨基酸序列来计算预测蛋白质的3D结构,以作为这些昂贵且费时的实验方法的补充选择。 然而,一个主要的挑战是,蛋白质在进入最终3D结构之前在理论上可以折叠的方式是天文数字。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,通过蛮力计算来枚举典型蛋白质的所有可能构型所需的时间比已知宇宙的时间长-莱文萨尔估计典型蛋白质的10 ^ 300种可能构象。 但在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠-这种二分法有时被称为莱文塔尔悖论。

 

3、什么是AlphaFold?

我们从2016年开始应对这一挑战,并从那时起创建了一个称为AlphaFold的AI系统。

通过约100,000种已知蛋白质的序列和结构来对这个系统进行训练。现在,我们的最新版本可以根据其氨基酸序列对蛋白质形成的形状做出准确的预测。这是一项重大突破,彰显了人工智能对科学的影响。

 

4、加入全球研究社区

1994年,对蛋白质折叠感兴趣的科学家成立了CASP(蛋白质结构预测的关键评估)。作为两年一次的盲目评估,以促进研究,监测进展并建立蛋白质结构预测的最新技术水平。 它既是评估预测技术的黄金标准,也是建立在共同努力基础上的独特全球社区。 最重要的是,CASP选择刚在实验上确定的蛋白质结构(在评估时仍在等待确定)作为团队测试其结构预测方法的目标。 它们不会提前发布。 参与者必须盲目地预测蛋白质的结构,然后将这些预测与可获得的地面真实实验数据进行比较。 我们要感谢CASP的组织者和整个社区,尤其是实验人员,他们的结构能够进行这种严格的评估。

研究小组为蛋白质选择了氨基酸序列,这些氨基酸序列具有精确的3D形状映射,但尚未发布到公共领域。 小组必须提交最佳预测,以了解它们与随后揭示的结构有多接近。 在参加CASP13(2018)的团队中,AlphaFold在蛋白质结构预测挑战赛中排名第一。 在CASP14(2020)上,我们介绍了最新版本的AlphaFold,该版本现已达到解决蛋白质结构预测问题的准确性水平。

我们的工作建立在CASP组织者和蛋白质折叠界数十年来的研究基础上,我们感谢多年来为蛋白质结构做出贡献的无数人,从而使进行如此严格的评估成为可能。

 

5、AlphaFold采用的方法

解决蛋白质折叠问题的方法我们于2018年首次使用我们的初始版本AlphaFold进入CASP13,在参与者中获得了最高的准确性。 之后,我们发表了一篇有关《natural》中带有关联代码的CASP13方法的论文(代码及论文建见参考文献),该论文继续启发了其他工作和社区开发的开源实现。 现在,我们开发的新的深度学习架构推动了CASP14方法的变化,使我们能够实现无与伦比的准确性。 这些方法从生物学,物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感

    折叠的蛋白质可以被视为“空间图”,其中残基是结点,边缘将残基紧密相连。 该图对于理解蛋白质内的物理相互作用及其进化历史非常重要。 对于CASP14上使用的最新版本的AlphaFold,我们创建了一个基于注意力的神经网络系统,端到端进行了培训,该系统试图解释该图的结构,同时推理其构建的隐式图。 它使用进化相关序列多序列比对(MSA和氨基酸残基对表示来完善此图。

    通过重复此过程,系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。 此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

    我们在可公开获得的数据上训练了该系统,该数据由来自蛋白质数据库的170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库组成。 它使用了大约16TPUv3(相当于128TPUv3内核或大约相当于100-200GPU),运行了几周,相对于机器中使用的大多数大型最新模型而言,计算量相对较小。 与我们的CASP13 AlphaFold系统一样,我们正在准备有关该系统的论文,以适时提交给同行评审期刊。

在我们发表有关这项工作的论文之前,请引用:

《High Accuracy Protein Structure Prediction Using Deep Learning》

John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Kathryn Tunyasuvunakool, Olaf Ronneberger, Russ Bates, Augustin Žídek, Alex Bridgland, Clemens Meyer, Simon A A Kohl, Anna Potapenko, Andrew J Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Martin Steinegger, Michalina Pacholska, David Silver, Oriol Vinyals, Andrew W Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis.

   2020年11月30日至12月4日,在《蛋白质结构预测技术的第十四次关键评估》中(摘要集见参考文献)。

 

6、解读Covid-19

当Covid-19出现时,对此知之甚少。 但是,世界各地的科学家聚在一起,寻找解决问题的方法。

    导致Covid-19的病毒SARS-CoV-2由大约30种蛋白质组成,其中约10种蛋白质被人们所知甚少。

    我们的研究小组使用AlphaFold预测了SARS-CoV-2病毒基因组中六个尚未充分研究的蛋白质的结构,希望它们可以增进我们对该病毒的了解。

    这些蛋白质之一的结构称为ORF3a,随后使用科学实验进行了研究。 作为CASP14的一部分,我们证明了另一种SARS-CoV-2蛋白ORF8的预测更为准确。

    这些结果提供了有关AlphaFold等AI工具如何更好地为我们应对未来大流行做准备的一瞥。

 

7、加速科学发现

像AlphaFold这样的系统,能够准确地预测蛋白质的结构,可以加速许多对社会重要的研究领域的进展。

    例如,关于蛋白质结构的有限信息一直是加深我们对诸如昏睡病(锥虫病)和利什曼病等被忽视的热带病的了解的主要障碍,这些疾病影响着数百万人的生活,每年造成成千上万人的死亡。

     它还阻碍了许多基础研究工作。 例如,开发一种新药可能需要超过25亿美元和10年以上的时间。  AlphaFold可以通过鉴定许多与疾病有关的人类蛋白质的结构,帮助促进更好和更有效的药物发现。

    它还可以帮助释放新的可能性,例如发现可以分解工业和塑料废物或有效地从大气中捕获碳的蛋白质和酶。

    在我们能够帮助这些领域产生实际影响之前,还有更多工作要做,但潜力无限。 如果AlphaFold与您的工作有关,请将有关它的几行提交到alphafold@deepmind.com。 尽管我们的团队无法回答所有询问,但如果有进一步探索的余地,我们会与您联系。

 

8、展望未来

AlphaFold是上一代产品中的佼佼者,以惊人的速度和精度预测蛋白质结构。 这一飞跃证明了计算方法将如何转变生物学研究,并为加速药物发现过程具有广阔的前景。

我们对AlphaFold的研究仍在继续,但是到目前为止,我们的工作以及CASP等组织的独立评估,都进一步增强了我们的希望,即其预测将很快有助于释放有益于社会的生物学研究的新可能性。

    我们对AlphaFold旅程的下一阶段感到很兴奋,并期待继续与全球科学界合作,以释放生命的基础。

 

参考资料

https://www.rcsb.org/stats/growth/growth-released-structures

https://www.nature.com/articles/s41586-019-1923-7.pdf

https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf

https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

https://github.com/dellacortelab/prospr

 

posted @ 2022-08-21 10:12  Oliver2022  阅读(164)  评论(0编辑  收藏  举报