rescal阅读
基于三向张量分解(factorization of a three-way tensor)的关系学习方法
我们的方法与其他张量方法不同,我们的方法能够可以通过模型的潜在组件进行集体学习并提供一种计算分解的有效的算法。
我们证实我们关于模型集体学习能力的理论考虑通过在新数据集和实体解析中常用的数据集上进行实验的方法。
relational learning
collective learning
entity resolution
1、介绍
随着关系数据和网络数据在社交网络建模,语义网,生物信息学和人工智能等不同领域的日益增长的相关性,关系学习领域的重要性日益增加。 本文关注张量在关系学习中的应用。 张量及其分解广泛用于心理学或化学计量学等领域,并且最近也已应用于数据挖掘和机器学习问题,例如用于对社交网络中的时间效应进行建模。 在关系学习中,张量(tensors)用于替代更常见的方法,如图形模型(graphical models)。
从建模的角度来说,张量提供了简单性,因为任何顺序的多个关系可以被直接表示为更高阶的张量。此外,不需要知道或从数据中,推理出关于问题结构的先验知识,但这对于图形模型,比如贝叶斯网络或马尔可夫逻辑网络(MLN)是必要的。从学习的角度应用张量分解的原因是关系领域通常是高维度和稀疏的,分解方法(factorization)展示出了非常好的结果。
关系数据的一个重要特性是可以在多个互连节点之间产生相关性。
可以通过在学习任务中包括相关实体的属性,关系或类来捕获这些相关性。
但是,众所周知的张量分解方法比如CP/Tucker不能有效的对集体学习效果进行建模。
我们提出了基于张量分解的关系学习方法RESCAL,该方法与DEDICOM有关但是丢弃了DEDICOM中的限制,因此我们可以生成高质量的模型并且显著减少运行时间。
我们会展示一种计算分解的有效的算法,并且在一个新的集体学习数据集和关系学习基本数据集上评估我们的模型。与关系学习中最好的方法相比,我们的方法可以达到更好或者相似的结果,但只用了一小部分时间来计算。
2、建模和符号
dyadic relational data(二元关系数据)表示两个物件直接的关系
我们用三元组的形式表示二元关系数据,预测既可以是两个实体之间也可以是实体和属性值之间的关系。我们通过三向张量将二元关系数据表示为张量,其中两维为实体,第三维表示关系。X(i,j,k)==1表示三元组(i,k,j)存在,否则表示不存在或未知的关系。
4、方法和理论
Relational learning is concerned with domains where entities are interconnected by multiple relations.(关系学习涉及实体被多个关系相互连接的领域)
(副总统,党派,a)------->(总统,党派,。。) 已知总统党派和副总统党派大概率相同
集体分类(collective classification)指包含诸如属性、类或连接实体的关系等信息来支持一个分类任务。然而这个过程不仅在分类问题中是有用的,在实体解析(entity resolution)、连接预测(link prediction)或者其他在关系数据上的学习任务都是有用的。
4.1、多关系数据的模型
为了执行在多关系数据上的集体学习,我们提出了RESCAL方法,一种使用了张量分解模型的方法,考虑了关系数据的内在结构。更精确的,我们使用了rank-r分解,