数据集格式汇总

2 Luo's dataset

Luo's dataset数据集是在DTINet模型论文中提出并构建出来的,下载地址

从公共数据集中收集了代表不同药物相关信息的四种类型的节点六种类型的边,并用于构建DTI预测任务的异构网络。

构建的异构网络中,共包括12015个节点和1895445条边。

具体该数据集内文件目录如下图所示。

节点

  • DrugBank(Version 3.0)中提取了药物节点
  • HPRD(Release 9)中提取了蛋白质节点
  • Comparative Toxicogenomics数据库中提取疾病节点
  • SIDER(Version 2)中提取了副作用节点

药物节点

从DrugBank中提取了708种不同的药物,所有药物在drug.txt中,所有药物使用DrugBank编号方式。

所有编号与药名的对应在drug_dict_map.txtdrug_dict_map.csv中展示。

蛋白质节点

HPRD(Release 9)中提取了1512种不同的药物,所有蛋白质在protein.txt中展示,所有蛋白质使用UniPort编号方式。

所有编号与蛋白质的对应在protein_dict_map.txtdrug_dict_map.csv中展示。

疾病节点

Comparative Toxicogenomics数据库中提取了5603种不同的药物,所有副作用在disease.txt中展示。

副作用节点

SIDER(Version 2)中提取了4191种不同的药物,所有副作用在se.txt中展示。

  • DrugBank(Version 3.0)导入已知的DTI以及药物间相互作用
  • HPRD(Release 9)中导入蛋白质-蛋白质相互作用
  • Comparative Toxicogenomics数据库中导入药物-疾病蛋白质-疾病的关联
  • SIDER(Version 2)纳入了药物副作用的相关性
  • 通过药物的化学结构构建及蛋白质序列信息分别构建药物相似度蛋白质相似度

药物间相互作用

药物间的相互作用以矩阵的形式进行展示,具体内容见mat_drug_drug.txt内,0表示不存在相互作用,1表示存在相互作用。

3 Yamanishi_08

简介

Yamanishi_08数据集是在Prediction of drug-target interaction networks from the integration of chemical and genomic spaces论文中提出并构建出来的,下载地址

Yamanishi_08含有四个子数据集,分别为:离子通道(IC)、G蛋白偶联受体(GPCR)、酶(E)和核受体(NR)。

数据集结构

药物标靶相互作用数据

二元关系列表形式

除了上述表示形式,还存在矩阵表示形式

相似矩阵

该数据集中提供了化合物结构相似矩阵和蛋白质序列相似矩阵。

4 Hetionet

简介

Hetionet整合了29个公共资源的生物医学数据,最终获得了11种类型的47,031个节点和24种类型的2250197个关系。

具体而言,这些节点包括1552种小分子化合物和20945种基因,以及疾病、解剖学、途径、生物学过程、分子功能、细胞组分、扰动、药理学类别、药物副作用和疾病症状。

下载地址

节点

元节点 缩写 元边缘 个数 未连接的节点
解剖学 A 4 402 2
生物过程 BP 1 11381 0
细胞组分 CC 1 1391 0
化合物 C 8 1552 14
疾病 D 8 137 1
基因 G 16 20945 1800
分子功能 MF 1 2884 0
途径 PW 1 1822 0
药理类 PC 1 345 0
副作用 SE 1 5734 33
症状 S 1 438 23

元关系 缩写 源节点 目标节点 无偏
Anatomy - downregulates - Gene AdG 102240 36 15097 102240
Anatomy - expresses - Gene AeG 526407 241 18094 453477
Anatomy - upregulates - Gene AuG 97848 36 15929 97848
Compound - binds - Gene CbG 11571 1389 1689 0
Compound - causes - Side Effect CcSE 138944 1071 5701 0
Compound - downregulates - Gene CdG 21102 734 2880 21102
Compound - palliates - Disease CpD 390 221 50 0
Compound - resembles - Compound CrC 6486 1042 1054 6486
Compound - treats - Disease CtD 755 387 77 0
Compound - upregulates - Gene CuG 18756 703 3247 18756
Disease - associates - Gene DaG 12623 134 5392 1284
Disease - downregulates - Gene DdG 7623 44 5745 7623
Disease - localizes - Anatomy DIA 3602 133 398 0
Disease - presents - Symptom DpS 3357 133 415 0
Disease - resembles - Disease DrD 543 112 106 0
Disease - upregulates - Gene DuG 7731 44 5630 7731
Gene - covaries - Gene GcG 61690 9043 9532 61690
Gene - interacts - Gene GiG 147164 9526 14084 15517
Gene - participates - Biological Process GpBP 559504 14772 11381 0
Gene - participates - Cellular Component GpCC 73566 10580 1391 0
Gene - participates - Molecular Function GpMF 97222 13063 2884 0
Gene - participates - Pathway GpPW 84372 8979 1822 0
Gene > regulates > Gene Gr>G 265672 4634 7048 265672
Pharmacologic Class - includes - Compound PCiC 1029 345 724 0

每个文件中保存了两个节点之间是否存在关系,如果为True则存在关系,如果为False则不存在关系。

在应用此数据集的论文中,将数据改造为了head relation tail三元组形式

5 BioKG

简介

BioKG是一个生物知识图谱,整合了来自14个数据库的生物医学数据,专为关系学习而设计。

BioKG的内容可以分为三类:链接、属性和元数据。

下载地址

节点

包含了药物、通路、蛋白质、疾病四种源节点,并且有药物、疾病、通路、蛋白质、细胞系的属性信息。

其中源节点信息格式如下图所示

属性信息格式如下图所示

边定义格式如下

posted @ 2024-03-01 20:42  Gazikel  阅读(46)  评论(0编辑  收藏  举报