KinDEL数据集：包含8100万个小分子的库，为激酶抑制剂的发现提供了一个丰富且功能强大的资源。

2024-10-12，在药物发现领域，Insitro公司创建了KinDEL，一个针对两个激酶靶点（MAPK14和DDR1）的大规模、公开可用的DNA编码库数据集。这个数据集不仅推动了计算技术的发展，还通过不同的机器学习技术，为识别潜在药物提供了预测模型，具有重要的科研和临床意义。

一、研究背景：

DNA编码库（DEL）作为一种组合小分子库，在药物发现中扮演着重要角色，它通过高通量筛选对治疗相关靶点的小分子库进行高效筛选。然而，公共DEL数据集的有限可用性限制了计算技术的进一步发展。

目前遇到困难和挑战

1、DEL合成和选择过程中的固有噪声，导致数据存在多种偏差源，需要现代机器学习方法来从数据中学习信号。

2、DEL实验通常测量带有DNA条码的分子的亲和力（即on-DNA结合），而在实际治疗活动中，药物样分子是在没有DNA标签的情况下进行测试的（即off-DNA），这意味着DEL数据受到DNA和分子与其连接的影响。

3、反应产率的不确定性和聚合酶链反应（PCR）扩增过程中的偏差，为过程增加了额外的噪声。

数据集地址：KinDEL|药物发现数据集|机器学习数据集

二、让我们一起来看一下KinDEL数据集

KinDEL（Kinase Inhibitor DNA-Encoded Library）是一个包含8100万个小分子的库，这些分子用于与两个蛋白质靶点MAPK14和DDR1的选择实验。KinDEL数据集的特点是高一致性的实验重复，提供了大量的监督数据，有助于机器学习社区开发解决药物发现中的小分子化学问题的方法。

DEL的构建是一个逐步的过程，每个合成子（synthon）都由DNA标签指定并逐一添加。此外，每个分子不仅有单一的编码，多个DNA编码映射到最终的分子结构，这些冗余编码有助于减少后续DNA测序步骤中的潜在偏差。

研究人员可以使用KinDEL数据集来开发和验证预测模型，通过生物物理实验数据来测试这些模型的有效性。

基准测试：

研究人员提供了使用生物物理实验数据验证的基准任务，这些任务可以帮助比较不同建模技术在DEL数据上的应用效果。

KinDEL 数据集中化学性质的分布。这些选定的特性通常用于评估分子的药物相似性。据 Shultz （2018）报告，浅蓝色区域标记了为 FDA 批准的所有口服新化学实体计算的第 10 个和第 90 个百分位数。QED：药物相似性的定量估计（Bickerton et al.， 2012）。

三、让我们来看一下KinDEL数据集应用场景：

比如，我是一名药物研发科学家

说起我做药物研发的日子，那真是一把辛酸泪。整体像个老黄牛一样，在实验室里捣鼓各种化合物。你知道的，我们得找到那些能“锁住”特定蛋白质的分子，这样它们就不会在身体里乱来了，也就能够治疗疾病。但是，这就像是在一片黑森林里找一根特定的小草，工作量巨大，还不一定能找到。

比如说，我之前在研究一种治疗癌症的药物。癌症这玩意儿，就是因为细胞里的一些蛋白质太活跃，导致细胞疯狂分裂。我们的任务就是找到能“按住”这些蛋白质的分子。但是，要找到这样的分子，得合成成千上万种化合物，然后一个个测试它们对蛋白质的作用。这不仅耗时耗力，而且成本还特别高。

自从我开始使用KinDEL数据集来训练我的机器学习模型，我的工作就发生改变。

这个数据集包含了8100万个小分子，这些分子都已经被测试过，看它们是否能和特定的激酶蛋白质结合。激酶这种蛋白质，就像是细胞里的一个开关，如果它一直开着，细胞就会出问题。

我给模型输入了大量的数据，它就能学习到哪些分子的形状、大小和电荷等特点，是和蛋白质结合的关键。

现在，我只需要把新的化合物输入模型，它就能预测这些化合物是否有可能成为有效的药物。这样，我就可以把精力集中在那些最有可能成功的化合物上，而不是盲目地一个一个测试。

这个改变对我来说简直是翻天覆地的。以前我可能要花上几个月甚至几年的时间来筛选化合物，现在可能只需要几周，甚至几天。而且，因为模型是基于大量数据训练的，它的预测准确性也大大提高。这不仅让我的工作更有效率，也让我对找到新药物更有信心了。

更多开源的数据集，请打开：遇见数据集

https://www.selectdataset.com/

posted @ 2024-10-15 15:34 数据猎手小k 阅读(104) 评论(0) 收藏举报来源

刷新页面返回顶部