MolKGNN:将卷积扩展到分子

MolKGNN:将卷积扩展到分子

理解 MolKGNN,一种为药物发现量身定制的可解释 GNN

本博客介绍我们的最新型号 摩尔 普遍的 ķ 内核 G 拉夫 ñ 欧元 ñ 论文中的网络(MolKGNN)
** 用于药物发现中定量结构活性关系建模的可解释手性感知图神经网络**

纸上一瞥:

  • 本文介绍了一种名为 SE(3)/conformation-invariance 的新模型 MolKGNN ,为药物发现中的 QSAR 任务量身定制。
  • MolKGNN 其新颖的分子卷积、轻量级手性计算及其可解释性的特点
  • 一个现实的药物发现实验证明了所提出的实用价值 MolKGNN

Figure 1. An analogy of (A) image convolution and (B) proposed molecular convolution. 图片来自原始论文。

背景:

阐明分子结构及其药理活性一直是药物发现史上长期存在的问题。 1859 年,德国化学家 Carl Stahlschmidt 证明,在士的宁和马钱子碱中加入甲基碘显然会破坏它们的生理作用 [1]。他的工作促使两位苏格兰科学家 Alxander Crum Brown (1838–1922) 和 Thomas R. Fraser (1841–1920) 对一系列化合物进行了实验。这些实验帮助他们确认存在结构活性关系(SAR)[1]。当时,人们相当乐观地认为,描述分子结构与其药理活性之间关系的一般规律将会被发现。从那时起,已经开发了几种数学/统计和机器学习方法,试图预测这种关系。此过程称为定量结构活性关系 (QSAR) 建模。 QSAR 尝试的示例包括多元线性回归、偏最小二乘法、判别分析、决策树、遗传算法等 [2]。 QSAR研究的治疗应用被寄予厚望。然而,直到今天,预测小分子的生物活性仍然是一项具有挑战性的任务。

任务:

QSAR 建模,即从分子结构中预测一个二进制标签 0(不活跃)或 1(活跃)。一个分子被表示为一个图,其中节点是原子,键是边。

MolKGNN 模型架构

第 1 部分。分子卷积

Figure 2. (A) In 2D image convolution, a higher convolution value indicates a higher visual similarity pattern. (B) The image kernels offer the benefit of interpretability. Image by the author.

MolKGNN 从 2D 图像卷积中汲取灵感(图 2)。在二维图像中,卷积运算可以看作是计算图像块与图像核之间的相似度。较大的输出值表示较高的视觉相似性模式,例如边缘、条带和曲线 [3]。然而,由于其不规则性,2D 图像卷积不能轻易地扩展到 3D 分子图。因此,一种新的分子卷积被设计为在分子邻域(1-hop neighbors)和分子内核(1-hop)之间进行卷积,类似于与图像内核卷积的图像块。分子卷积具有以下性质:

  • 像图像卷积一样,分子邻域与分子核越相似,分子卷积值就应该越高。
  • 与图像卷积不同,分子卷积应该是旋转不变的
  • 分子内核可以提供可解释性。

接下来的问题是,我们如何设计分子卷积以具有上述特性?

分子邻域之间的相似性 小号 和一个内核 S' 由相似度分数量化 φ(S, S')。 该分数是三个子分数的组合 φ_ CS, φ_ ns 和 φ_ es,分别捕获中心相似度、邻域节点相似度和边缘相似度。这些计算如下所示:

Figure 3. A similarity score between the neighborhood subgraph and kernel is calculated from the combination of three subscores. The subscores quantify the similarities of different aspects between the neighborhood subgraph and the kernel. The central similarity subscore captures the similarity between the center node attributes (v and v’). The neighborhood node similarity subscore captures the similarities of attributes of neighboring nodes (u1 and u1', u2 and u2', u3 and u3'). The Neighborhood edge similarity subscore captures the similarities of attributes of neighboring edges. Note that there are multiple ways of matching the neighbors, and we find the optimal neighbor matching χ* that gives the highest score (e.g, u1 and u2', u2 and u3', u3 and u1' in the illustration). Becase the neighboring nodes has one-to-one correspondence to neighboring edges, we can find the optimal edge matching χ^{e,} based on the optimal neighbor matching χ. Image from the 原纸

接下来,我们想整合手性计算。这个想法是使用内核作为参考的锚。然后将分子邻域与内核进行比较,以查看它是否与内核具有相同的邻居顺序。我们利用向量形式的四面体体积计算来捕获邻居排序[4]。请参见下图。

Figure 4. In neighborhood 1, three vectors a1, b1, c1 are made from arbitrarily-chosen neighbors. The tetrahedral volume can be calculated as 1/6* a1×b1⋅c1. Note that this volume can be of positive or negative signs, which indicate the volume direction. The same calculation can be carried out in the kernel for the corresponding neighbor nodes in the optimal matching. If the sign of the tetrahedron volume of the neighborhood1 is the same as the one in the kernel, we know that they have the same neighboring node ordering. In the case of neighborhood2 above, its volume is of different sign and we know neighborhood2 has different neighbor nodes order. Also, note that the constant 1/6 is trivial in the sign determination and can be omitted in actual implementation. Image from the 原纸

最后,我们利用消息传递神经网络 (MPNN) 框架 [5] 来获得更大的感受野。这个想法是用分子邻域和内核之间的相似性聚合来代替传统的相邻节点属性聚合。请参见下图。

Figure 5. Overview of the MolKGNN model. The key idea is to replace the traditional aggregation of attributes of neighboring nodes, with the similarities between a molecular neighborhood and a set of kernels. Image from the 原纸

可以通过多次重复计算分子卷积和传播消息的过程来学习最终的原子嵌入。最终的分子嵌入可以通过 各种池化技术 .最终的预测可以通过在分子嵌入的顶部附加一个分类器来进行,例如多层感知 (MLP)。

实验

来自药物发现的真实数据集用于对 MolKGNN [6, 7] 进行基准测试。这些数据集经过精心策划,以消除药物发现活动中经常出现的误报信号。数据集统计信息如下所示,可在 无花果分享 .

Table 1. Dataset statistics. They feature in the large size, highly-imbalanced label distribution and diverse protein targets. Image from the 原纸

下面的两个表格显示了结果。 logAUC_[0.001, 0.1] 在这里用于偏向具有高预测分数的化合物。这对应于现实世界的药物发现场景:只有那些预测具有高活性的药物才会被购买或合成。因此,更感兴趣的是查看这些化合物的模型性能而不是一般模型性能。见 原纸 更多结果和实验细节。

Figure 7. Result table. Image from the 原纸

而且, MolKGNN 能够捕捉与领域知识一致的模式。下面是从学习内核翻译的模式示例。这种模式也被称为药物化学中的一个重要结构,称为 三氟甲基 .

Figure 6. A learned kernel shows an important substructure pattern, known as the trifluoromethyl group. Image from the 原纸

结论

本文展示了一个名为 MolKGNN 用于分子表征学习。 MolKGNN 在现实的药物发现实验中表现出卓越的性能,同时还提供了手性意识和可解释性的好处。

参考:

[1] 帕拉斯坎多拉,约翰。 “结构-活动关系——早期的海市蜃楼。” 历史上的药学 13.1(1971):3-10。

[2] Wermuth, Camille Georges 编辑。 药物化学实践 .学术出版社,2011。

[3] 林志豪、黄盛宇、王宇强。 “学习用于点云分析的 3d 图卷积网络。” IEEE 模式分析和机器智能汇刊 44.8(2021):4212–4224。

[4] 斯利沃斯基、格雷戈里等人。 “BCL::EMAS — 3D-QSAR 的对映选择性分子不对称描述符。” 分子 17.8 (2012): 9971–9989。

[5] 吉尔默、贾斯汀等人。 “用于量子化学的神经信息传递。” 机器学习国际会议 . 2017 年,PMLR。

[6] Butkiewicz、Mariusz 等人。 “使用 PubChem 数据库对基于配体的虚拟高通量筛选进行基准测试。” 分子 18.1(2013):735–756。

[7] Butkiewicz、Mariusz 等人。 “来自 pubchem 数据库的高通量筛选分析数据集。” 化学信息学(特拉华州威尔明顿) 3.1 (2017)。

[

Mlearning.ai 提交建议

如何成为 Mlearning.ai 上的作家

媒体网

](/mlearning-ai/mlearning-ai-submission-suggestions-b51e2b130bfb)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/1660/08153016

posted @   哈哈哈来了啊啊啊  阅读(33)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
点击右上角即可分享
微信分享提示