TransX数据集

TransE是一种常见的知识图谱嵌入方法，它需要一个包含实体，关系和三元组的知识图谱数据作为输入。以下是制作TransE数据集的一般步骤：

1.收集知识图谱数据：首先需要收集实体和关系的信息，这可以通过网站，数据库或其他来源获得。这些数据通常以三元组的形式呈现，其中每个三元组包含一个头实体，一个关系和一个尾实体。

2.清洗数据：在收集到数据后，需要进行数据清洗以确保数据的质量。这可以包括去除重复的三元组，去除不一致或不完整的实体和关系等。

3.划分训练，验证和测试集：为了评估TransE模型的性能，需要将数据集划分为训练，验证和测试集。通常，大部分数据被用于训练模型，而验证和测试集用于评估模型的性能。

4.根据三元组构建实体和关系的集合：为了使用TransE模型，需要将实体和关系表示为向量。为此，可以根据三元组构建实体和关系的集合，并为每个实体和关系分配唯一的ID。然后，可以将这些ID用作TransE模型的输入。

5.为每个三元组生成训练数据：对于每个三元组，可以将其表示为头实体，关系和尾实体的向量表示。然后，可以使用这些向量表示来生成训练数据，其中训练数据由头实体，关系，尾实体和标签组成。标签表示该三元组是否存在于知识图谱中。

6.保存数据：最后，将生辰的数据保存为恰当的格式，以供TransE模型使用。常见的格式包括CSV,JSON和RDF等。

以上是制作TransE数据集的一般步骤，具体实现可能因应用场景的不同而有所变化。

经典知识图谱如Yago,WordNet,Freebase,是算法研究过程中常用以计算指标的验证数据集。

WordNet最早在1995年被George A.Miller在论文WordNet:A Lexical Database for English中提出。
Yago在2007年Fabian M.Suchanek,Gjergji Kasneci和Gerhard Weikum的工作Yago:a core og semantic knoeledge中进入人们眼球
Freebase则出现最晚，2008年Kurt D.Bollacker,Colin Evans,Praveen Paritosh,Tim Sturge和Jamie Taylor的文章Freebase: a collaboratively created graph database for structuring human knowledge 中正式给出关于Freebase的描述。

WordNet数据集：是一个描述英文词汇之间关联特点的数据集，同时也是一个数据库。该数据库将英语名词，动词，形容词和副词与同义词联系起来，这些同义词通过语义关系相互联系，从而确定单词的定义。

在最近的研究中使用WordNet数据集，并不是使用1995年提出的，而是使用子集的WN18和WN18RR。

WN18(2013)是WordNet1995的子集，该子集中relatioin关系的主要模式是对称关系，非对称关系和反转关系。关系的类型对于知识工程任务中的信息提取，信息表征具有影响，影响模型的构建，相同算法在关系类型不同的数据集上性能的表现是不同的。
WN18RR(2017)是WN18的子集，其中更多的保留了原数据集中的对称关系，非对称关系和组合关系，而去除了反转关系。

常用知识图谱数据集FB15K,YAGO,WN18

posted @ 2023-03-29 09:59 sqsq 阅读(238) 评论(0) 收藏举报

刷新页面返回顶部

sqsq