英伟达人工智能和处理器驱动的制药、生命科学合作
作者 | Allison Proffitt
编译 | BioIT 爱好者
原文 | Pharma, Life Sciences Partnerships Driven By NVIDIA AI and Processors
2021年4月12日 | 在本周开始的 NVIDIA GTC 活动上,NVIDIA 首席执行官 Jensen Huang 再次分享了他厨房里最新的高性能计算技术。在长达一个多小时的开幕演讲中,黄探讨了 Omniverse、最新的高性能数据中心、5G 人工智能以及 NVIDIA 与汽车行业的合作。Omniverse 是 NVIDIA 用于创建虚拟世界的平台。
在医疗保健领域,大部分公告都集中在英伟达医疗保健计算平台 Clara Discovery 的扩展上。NVIDIA 医疗保健副总裁 Kimberly Powell 在一次新闻发布会上解释说: "Clara 是一个集合了预先培训的模型、 AI 应用框架和参考应用程序的集合,因此我们可以将这些能力引入医疗保健领域","这是非常特定领域的。" 她补充说。
在克拉拉发现中心,NVIDIA 宣布了四个新的预先训练的模型:基于开源变压器的人工智能生成模型 MegaMolBART;世界上最大的临床语言模型 GatorTron;根据氨基酸序列预测蛋白质 3D 结构的 AlphaFold 1;以及用于单细胞基因组学去噪的 ATAC-Seq。
黄宣布,鲍威尔详细阐述了由 Clara Discovery 推动的几个医疗保健和药物开发合作伙伴关系。
薛定谔:优化的计算药物发现
他解释说,Schrödinger(薛定谔)已经是 NVIDIA GPU 在药物研发和材料科学业务中的 “重度用户”,甚至最近还与 NVIDIA 达成协议,在谷歌云上使用数亿小时的 GPU。
但是今天,黄宣布与 Schrödinger(薛定谔)建立合作伙伴关系,为那些不能使用云计算的客户提供服务。NVIDIA 计划优化 Schrödinger 的 FEP + 计算药物发现平台ーー该平台旨在为 NVIDIA DGX SuperPOD 建模和预测新分子的性质ーー该平台由 NVIDIA DGX A100 系统和 NVIDIA InfiniBand HDR 网络构建。鲍威尔说,通过优化 SuperPOD 平台,“我们实质上已经将完成这项工作的能力提高了五倍。”
这项工作包括 Schrödinger(薛定谔)产品套件中基于物理的建模,以及对 NVIDIA Clara Discovery 的支持。两家公司还计划在科研突破方面进行合作,以进一步推进基于物理的计算和用于药物发现的机器学习。
“如今世界前 20 大药厂都在使用 Schrödinger(薛定谔)。他们的研究人员将看到生产力的巨大提高。”。鲍威尔更具体地说: “我们可以在一年内模拟出一百多万种可能的药物。换个角度来说,如果你在实验室里做这件事,你将花费超过1亿美元,而且需要5年多的时间。”
阿斯利康:人工智能学习化学语言
NVIDIA 还与阿斯利康(AstraZeneca)合作,开发一种基于变压器的生成人工智能模型,用于药物开发中的化学结构(预测)。这将是剑桥 1 号(Cambridge-1)上运行的首批项目之一。剑桥 1 号(Cambridge-1)很快将作为英国最大的线上超级计算机。这种名为 megamolbart 的模型将开源,可供 NVIDIA NGC 软件目录的研究人员和开发人员使用,也可部署到 NVIDIA Clara Discovery 平台上用于计算药物发现。
MegaMolBART 是基于阿斯利康公司的 MolBART 变压器模型,已经从锌化合物数据库中预先培训了10亿个分子——使用 NVIDIA 的威震天(Megatron)框架,以便能够大规模扩展超级计算基础设施的培训。“我们使用了32架 DGX a100 来训练这些非常大的模型,”鲍威尔报告说。
黄教授报告说,MegaMolBART 模型最近在 Insilico 医学上取得了成功,该公司使用该模型,“在不到两年的时间里找到了一种新药。”鲍威尔也同样热情洋溢地解释道。
鲍威尔说: “你可以用它做一些神奇的事情。”。该模型可以处理反应预测、分子优化、合成“我们以前设计不出的性质”和新分子生成等问题。“我们知道有超过 1060 个完全无法处理的潜在分子存在,”鲍威尔说。“如果我们能够超越化学数据库,我们将会发现更多新的分子,这些分子可以用来治疗 1 万多种尚未得到治疗的疾病。”
这些任务只是开始,鲍威尔说。“一旦你有了这些非常大的预训练模型,你就可以将它们用于许多后续的精调任务,这些都将有助于药物发现和药物开发的预测模型。”
佛罗里达大学:GatorTron Reads EHRs
得益于一个有超过140个节点的天才 DGX SuperPod —— 名为 HyperGator —— 佛罗里达大学和 NVIDIA 使用威震天训练框架读取了超过 200 万名患者和 5000 万名患者的 3 亿份非结构化信息。
“这里的主要想法是,我们能否训练这个模型读取医疗记录中巨大的医生笔记语料库。我们就是这样做的,”鲍威尔说。在七天的时间里,该模型在命名实体识别方面达到了最先进的水平,她报告说。它甚至改进了佛罗里达大学自己的病人去身份化或匿名化的方法。
“拥有最先进的临床模型的下游应用是无限的,” 鲍威尔说。能够搜索和查询所有 EMR 数据,可以将患者与试验进行匹配,预测威胁生命的疾病并及早干预,为临床医生和患者创建健康摘要以及为临床决策提供支持。
鲍威尔补充说: “这真正意味着,NVIDIA DGX SuperPOD,本质上是一个盒子里的数据中心,与 NVIDIA 的威震天训练框架的结合,我们实质上使每个学术医疗中心都能够建立自己的临床语言模型”。“他们想这么做!”,鲍威尔补充说。
除了这些合作伙伴关系和部署之外,黄和鲍威尔还提到了在牛津纳米孔学院(Oxford Nanopor)使用 NVIDIA GPUs 推动科学发展的过程,其中测序过程在 DGX SuperPOD 上进行了训练,并通过 AI 工具进行了推理。Recursion Pharmaceuticals 的 BioHive-1 DGX SuperPOD 和 Vyasa 的 Layar 正是这样的一个深度学习的人工智能数据结构架构。
“有史以来第一次,随着生物学的数字化,我们可以应用计算机的力量来解决人文学科最大的挑战,”鲍威尔说。“所有的部分都在这里汇集起来了!”
Galaxy Project | 生信人最值得学习的开源项目之一
本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。