TransX数据集

TransE是一种常见的知识图谱嵌入方法,它需要一个包含实体,关系和三元组的知识图谱数据作为输入。以下是制作TransE数据集的一般步骤:

1.收集知识图谱数据:首先需要收集实体和关系的信息,这可以通过网站,数据库或其他来源获得。这些数据通常以三元组的形式呈现,其中每个三元组包含一个头实体,一个关系和一个尾实体。

2.清洗数据:在收集到数据后,需要进行数据清洗以确保数据的质量。这可以包括去除重复的三元组,去除不一致或不完整的实体和关系等。

3.划分训练,验证和测试集:为了评估TransE模型的性能,需要将数据集划分为训练,验证和测试集。通常,大部分数据被用于训练模型,而验证和测试集用于评估模型的性能。

4.根据三元组构建实体和关系的集合:为了使用TransE模型,需要将实体和关系表示为向量。为此,可以根据三元组构建实体和关系的集合,并为每个实体和关系分配唯一的ID。然后,可以将这些ID用作TransE模型的输入。

5.为每个三元组生成训练数据:对于每个三元组,可以将其表示为头实体,关系和尾实体的向量表示。然后,可以使用这些向量表示来生成训练数据,其中训练数据由头实体,关系,尾实体和标签组成。标签表示该三元组是否存在于知识图谱中。

6.保存数据:最后,将生辰的数据保存为恰当的格式,以供TransE模型使用。常见的格式包括CSV,JSON和RDF等。

以上是制作TransE数据集的一般步骤,具体实现可能因应用场景的不同而有所变化。

 

经典知识图谱如Yago,WordNet,Freebase,是算法研究过程中常用以计算指标的验证数据集。

  • WordNet最早在1995年被George A.Miller在论文WordNet:A Lexical Database for English中提出。
  • Yago在2007年Fabian M.Suchanek,Gjergji Kasneci和Gerhard Weikum的工作Yago:a core og semantic knoeledge中进入人们眼球
  • Freebase则出现最晚,2008年Kurt D.Bollacker,Colin Evans,Praveen Paritosh,Tim Sturge和Jamie Taylor的文章Freebase: a collaboratively created graph database for structuring human knowledge 中正式给出关于Freebase的描述。

WordNet数据集:是一个描述英文词汇之间关联特点的数据集,同时也是一个数据库。该数据库将英语名词,动词,形容词和副词与同义词联系起来,这些同义词通过语义关系相互联系,从而确定单词的定义。

在最近的研究中使用WordNet数据集,并不是使用1995年提出的,而是使用子集的WN18和WN18RR。

  • WN18(2013)是WordNet1995的子集,该子集中relatioin关系的主要模式是对称关系,非对称关系和反转关系。关系的类型对于知识工程任务中的信息提取,信息表征具有影响,影响模型的构建,相同算法在关系类型不同的数据集上性能的表现是不同的。
  • WN18RR(2017)是WN18的子集,其中更多的保留了原数据集中的对称关系,非对称关系和组合关系,而去除了反转关系。

 常用知识图谱数据集FB15K,YAGO,WN18

 

FB15K-237:FB15K-237知识图谱数据集的介绍与分析,Freebase

 

posted @ 2023-03-29 09:59  sqsq  阅读(125)  评论(0编辑  收藏  举报