[论文精读][基于点云的蛋白-配体亲和力]A Point Cloud-Based Deep Learning Strategy for Protein-Ligand Binding Affinity Prediction
我需要的信息
-
不考虑共价键,每个点包括了六种原子信息,包括xyz坐标,范德华半径,原子重量以及来源(1是蛋白质,-1是配体)。原子坐标被标准化,其它参数也被标准化。对不足1024个原子的的复合体,补0到1024。
-
增加考虑的原子从1024到2048,没有提升,增加原子信息通道,没有提升(见result)
Abstract
- 基于AI的蛋白质-配体亲和力模型可用于药物发现
- 本文首次使用PointNet和PointTransformer来做亲和力
- 有效学习,而且PointTransformer学习到的蛋白配体互作用特征可以适用于XGBoost,在预测任务上和sota水平相当。
- 结果表明三维点云算法可以有效学习到PDBbind数据集里的自然进化和化学机制等知识
Introduction
以前的方法
- 分子表述:FPRC, PerSpect, PSH
- 2D互作用图:DeepBindRG
- 3D体素:KDeep, AK-Score, DeepAtom
- 图数据:Graph-CNN, GraphBAR
点云方法
- 猜想点云方法可以比体素方法更快更简单。
- 点云中的每个点代表蛋白质配体结构中的一个现有原子,这一显著特征将有助于通过可视化来解释已开发的模型
- 两种模型的Pearson correlation coefficient都测试了
- 把输入后的特征给到XGBoost,预测结果和sota的机器学习方法相当。
Methods
Dataset
- 使用精细化过的PDBbind-2016,包括4057个蛋白-配体复合物数据。3772个数据是训练集和验证集,其他的core set是测试集。
- 还使用了general的PDBbind-2016,含有肽复合物的被删去,复合物不足的被删去,测试集删去。得到11 327的训练集。
- 以配体为中心,选取最近的1024个蛋白原子。
- 不考虑共价键,每个点包括了六种原子信息,包括xyz坐标,范德华半径,原子重量以及来源(1是蛋白质,-1是配体)。原子坐标被标准化,其它参数也被标准化。对不足1024个原子的的复合体,补0到1024。
- 为调查输入,还做了两个实验:增加原子种类的channels,原子采样从1024增加到2048
Comparison of pre-processing and inference time of different models
使用c++加速点云的生成还和体素的方法进行了时间的比对
PointNet and PointTransformer architecture and training
-
网络框架大概长这样,然后强调了,原子输入顺序不影响结果因为有我们的Max Pool。这个在pointnet++里也是一样的。
-
训练的时候把点云翻转了24次,相当于数据集增加了24倍。测试的时候把输入翻转24次,取预测的平均值。
Result
其它result笔者不感兴趣,略