Cora 数据集介绍

0. 概述

Cora 数据集由机器学习论文组成，是近年来图深度学习很喜欢使用的数据集。在数据集中，论文被分为以下七类之一：

基于案例
遗传算法
神经网络
概率方法
强化学习
规则学习
理论

论文的选择方式是，在最终语料库中，每篇论文至少引用一篇论文或被至少一篇论文引用（即至少有一条出边或至少有一条入边，也就是样本点之间存在联系，没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点，则这是一个连通的图，不存在孤立点）。整个语料库中有2708篇论文。在词干堵塞和去除词尾后，且文档频率小于10的所有单词都被删除后，只剩下1433个独特的单词。

1. 文件介绍

Cora 数据集中主要包含两个文件：cora.content 和 cora.cites

1.1 cora.content

cora.content 共有 2708 行，每行代表一个样本点，即一篇论文。一行由三部分组成：论文编号（raw_data的编号并非 0~2708）。接下来 1433 列是论文的词向量。最后一列为论文类别，如 Neural_Networks 。

31336	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Neural_Networks
1061127	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Rule_Learning
1106406	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Reinforcement_Learning

1.2 cora.cites

cora.cites 共有 5429 行，每一行有两个论文编号，表示第一个论文先写，第二个论文引用第一个论文。如果将论文看做图中的点，那么这5429行便是点之间的5429条边。

35	1033
35	103482
35	103515

posted @ 2021-07-06 11:00 popozyl 阅读(4329) 评论(0) 编辑收藏举报

刷新页面返回顶部

popobobo

Cora 数据集介绍

0. 概述

1. 文件介绍

1.1 cora.content

1.2 cora.cites

公告