英伟达人工智能和处理器驱动的制药、生命科学合作

作者 | Allison Proffitt
编译 | BioIT 爱好者
原文 | Pharma, Life Sciences Partnerships Driven By NVIDIA AI and Processors

2021年4月12日 | 在本周开始的 NVIDIA GTC 活动上，NVIDIA 首席执行官 Jensen Huang 再次分享了他厨房里最新的高性能计算技术。在长达一个多小时的开幕演讲中，黄探讨了 Omniverse、最新的高性能数据中心、5G 人工智能以及 NVIDIA 与汽车行业的合作。Omniverse 是 NVIDIA 用于创建虚拟世界的平台。

在医疗保健领域，大部分公告都集中在英伟达医疗保健计算平台 Clara Discovery 的扩展上。NVIDIA 医疗保健副总裁 Kimberly Powell 在一次新闻发布会上解释说: "Clara 是一个集合了预先培训的模型、 AI 应用框架和参考应用程序的集合，因此我们可以将这些能力引入医疗保健领域"，"这是非常特定领域的。" 她补充说。

在克拉拉发现中心，NVIDIA 宣布了四个新的预先训练的模型：基于开源变压器的人工智能生成模型 MegaMolBART；世界上最大的临床语言模型 GatorTron；根据氨基酸序列预测蛋白质 3D 结构的 AlphaFold 1；以及用于单细胞基因组学去噪的 ATAC-Seq。

黄宣布，鲍威尔详细阐述了由 Clara Discovery 推动的几个医疗保健和药物开发合作伙伴关系。

薛定谔：优化的计算药物发现

他解释说，Schrödinger（薛定谔）已经是 NVIDIA GPU 在药物研发和材料科学业务中的 “重度用户”，甚至最近还与 NVIDIA 达成协议，在谷歌云上使用数亿小时的 GPU。

但是今天，黄宣布与 Schrödinger（薛定谔）建立合作伙伴关系，为那些不能使用云计算的客户提供服务。NVIDIA 计划优化 Schrödinger 的 FEP + 计算药物发现平台ーー该平台旨在为 NVIDIA DGX SuperPOD 建模和预测新分子的性质ーー该平台由 NVIDIA DGX A100 系统和 NVIDIA InfiniBand HDR 网络构建。鲍威尔说，通过优化 SuperPOD 平台，“我们实质上已经将完成这项工作的能力提高了五倍。”

这项工作包括 Schrödinger（薛定谔）产品套件中基于物理的建模，以及对 NVIDIA Clara Discovery 的支持。两家公司还计划在科研突破方面进行合作，以进一步推进基于物理的计算和用于药物发现的机器学习。

“如今世界前 20 大药厂都在使用 Schrödinger（薛定谔）。他们的研究人员将看到生产力的巨大提高。”。鲍威尔更具体地说: “我们可以在一年内模拟出一百多万种可能的药物。换个角度来说，如果你在实验室里做这件事，你将花费超过1亿美元，而且需要5年多的时间。”

阿斯利康：人工智能学习化学语言

NVIDIA 还与阿斯利康(AstraZeneca)合作，开发一种基于变压器的生成人工智能模型，用于药物开发中的化学结构（预测）。这将是剑桥 1 号（Cambridge-1）上运行的首批项目之一。剑桥 1 号（Cambridge-1）很快将作为英国最大的线上超级计算机。这种名为 megamolbart 的模型将开源，可供 NVIDIA NGC 软件目录的研究人员和开发人员使用，也可部署到 NVIDIA Clara Discovery 平台上用于计算药物发现。

MegaMolBART 是基于阿斯利康公司的 MolBART 变压器模型，已经从锌化合物数据库中预先培训了10亿个分子——使用 NVIDIA 的威震天（Megatron）框架，以便能够大规模扩展超级计算基础设施的培训。“我们使用了32架 DGX a100 来训练这些非常大的模型,”鲍威尔报告说。

黄教授报告说，MegaMolBART 模型最近在 Insilico 医学上取得了成功，该公司使用该模型，“在不到两年的时间里找到了一种新药。”鲍威尔也同样热情洋溢地解释道。

鲍威尔说: “你可以用它做一些神奇的事情。”。该模型可以处理反应预测、分子优化、合成“我们以前设计不出的性质”和新分子生成等问题。“我们知道有超过 1060 个完全无法处理的潜在分子存在，”鲍威尔说。“如果我们能够超越化学数据库，我们将会发现更多新的分子，这些分子可以用来治疗 1 万多种尚未得到治疗的疾病。”

这些任务只是开始，鲍威尔说。“一旦你有了这些非常大的预训练模型，你就可以将它们用于许多后续的精调任务，这些都将有助于药物发现和药物开发的预测模型。”

佛罗里达大学：GatorTron Reads EHRs

得益于一个有超过140个节点的天才 DGX SuperPod —— 名为 HyperGator —— 佛罗里达大学和 NVIDIA 使用威震天训练框架读取了超过 200 万名患者和 5000 万名患者的 3 亿份非结构化信息。

“这里的主要想法是，我们能否训练这个模型读取医疗记录中巨大的医生笔记语料库。我们就是这样做的，”鲍威尔说。在七天的时间里，该模型在命名实体识别方面达到了最先进的水平，她报告说。它甚至改进了佛罗里达大学自己的病人去身份化或匿名化的方法。

“拥有最先进的临床模型的下游应用是无限的，” 鲍威尔说。能够搜索和查询所有 EMR 数据，可以将患者与试验进行匹配，预测威胁生命的疾病并及早干预，为临床医生和患者创建健康摘要以及为临床决策提供支持。

鲍威尔补充说: “这真正意味着，NVIDIA DGX SuperPOD，本质上是一个盒子里的数据中心，与 NVIDIA 的威震天训练框架的结合，我们实质上使每个学术医疗中心都能够建立自己的临床语言模型”。“他们想这么做！”，鲍威尔补充说。

除了这些合作伙伴关系和部署之外，黄和鲍威尔还提到了在牛津纳米孔学院（Oxford Nanopor）使用 NVIDIA GPUs 推动科学发展的过程，其中测序过程在 DGX SuperPOD 上进行了训练，并通过 AI 工具进行了推理。Recursion Pharmaceuticals 的 BioHive-1 DGX SuperPOD 和 Vyasa 的 Layar 正是这样的一个深度学习的人工智能数据结构架构。

“有史以来第一次，随着生物学的数字化，我们可以应用计算机的力量来解决人文学科最大的挑战，”鲍威尔说。“所有的部分都在这里汇集起来了！”