文献笔记:LINE: Large-scale Information Network Embedding
https://arxiv.org/pdf/1503.03578v1.pdf
本文研究了将非常大的信息网络嵌入到低维向量空间的问题,这在可视化、节点分类和链路预测等许多任务中都很有用。大多数现有的图形嵌入方法无法扩展到通常包含数百万个节点的现实世界信息网络。在本文中,我们提出了一种名为“LINE”的新型网络嵌入方法,适用于任意类型的信息网络:无向、定向和/或加权。该方法优化了精心设计的目标功能,保留了本地和全球网络结构。提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,并提高了推理的有效性和效率。实证实验证明了LINE在各种现实世界信息网络上的有效性,包括语言网络、社交网络和引用网络。该算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。LINE的源代码可在线获取。
结构:第1节介绍。第2节总结了相关工作。第3节正式定义了大规模信息网络嵌入的问题。第4节详细介绍了LINE模型。第5节介绍了实验结果。在第6节总结。
论文研读问题
1.文章在解决什么问题?
将非常大的信息网络嵌入到低维向量空间,为下游任务做准备。提出能实现以下要求的信息网络嵌入:
● 首先,它必须能够保持顶点之间的一阶接近度和二阶接近度;
● 其次,它必须为非常大的网络扩展,例如数百万个顶点和边缘;
● 第三,它可以处理具有任意类型边缘的网络:有向、无向和/或加权。
2.用了什么方法?
- 提出了Line模型,专门为网络设计的目标,实现保留一节接近度和二阶接近度的网络嵌入
- 提出边缘采样算法,使用与权重成正比的概率进行采样,解决随机梯度下降存在的梯度爆炸问题。
- 更类似于广度优先搜索来保留二阶接近度
- 在现实世界的信息网络上进行了广泛的实验,用实验结果证明了不同网络下的LINE模型的有效性和效率。
Line 模型提出一阶接近度和二阶接近度的定义,并通过组合实现一阶和二阶,提出Line(1st),Line(2sd),Line(1st+2nd),还有使用梯度随即下降版本的sgd,并进行实验探究在不同信息网络中的表现。
一阶接近度的求解方法:
二阶接近度求解方法:
3.得出了什么结论,有什么效果?
● line模型可以适用任何类型网络,包括语言网络、社交网络和引用网络,具有通用性,可以保留了本地和全局网络结构。
● 提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,解决随机梯度下降存在的梯度爆炸问题。
● 算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。
4.没完成的/新问题有哪些?
- low degree vector。一个实际问题是如何用小度来嵌入顶点。由于这种节点的邻居数量非常少,因此很难准确推断其表示,特别是基于二阶接近的方法在很大程度上依赖于“上下文”的数量。 解决方法,添加高阶邻居,邻居的邻居,Line加入了二阶邻居。
- 如何找到新出现的顶点的表示。如果观察到新顶点和现有顶点之间没有连接,我们必须求助于其他信息,例如顶点的文本信息,并将其作为我们未来的工作。辅助信息,比如side information.
5.为什么这篇文章很重要?
优点:适用于任意类型的信息网络,提出将一阶和二阶接近度结合出来,保留了本地和全球网络结构,提出了一种边缘采样算法,算法非常高效,性能好,能快速处理大量节点,可以处理稀疏和稠密网络。
特点:说明了一阶接近度和二阶接近度是互补的。 - 一般图嵌入和降维方法重点特征向量的矩阵分解,处理大规模网络效率低下。
- 图因子分解方法的目标不为了网络设计,不一定能保留全局网络结构,重点关注一阶接近度,只适合无向图。
- Deep walk加入截断随机游走,未设计目标来阐明保留哪些网络属性,重点关注二阶接近度,类似深搜,只适合未加权的。
- 而Line专为网络设计,将一阶和二阶接近度结合出来,保留了本地和全球网络结构,操作更类似广搜,用广搜来求二阶接近度更合理。
6.数据
(1)语言网络。用维基百科页面构建了一个单词共同出现网络。每个5个单词的滑动窗口中的单词都是相互并发的。
(2)社交网络。Flickr和Youtube2。Flickr网络的密度比Youtube网络。
(3)引文网络。author引文网络和纸质引文网络。用DBLP数据集构建作者之间和论文之间的引用网络。作者引用网络记录了一位作者撰写和另一位作者引用的论文数量。这些网络的详细统计数据汇总到表1中。它们代表各种信息网络:定向和非定向、二进制和加权。每个网络至少包含50万个节点和数百万个边缘。
7.能尝试新思路
异质信息网络嵌入。
动态信息网络嵌入更新。
多模态信息网络嵌入。
相关背景知识
1.一阶和二阶接近度定义:
一阶邻近性网络中的一阶邻近性是两个顶点之间的局部成对邻近性。对于每一对由边(u, v)连接的顶点,该边的权值wuv表示u和v之间的一级接近度。如果在u和v之间没有观察到边,则它们的一阶接近度为O。
二阶邻近性:网络中一对顶点(u,v)之间的二阶邻近性是它们的邻域网络结构之间的相似性。数学上,令pu = (wu.1,…, Wu.|v|)表示u与所有其他顶点的一阶接近度,则u与v的二阶接近度由pu与py的相似度决定。如果没有一个顶点连接到u和v,则u和v之间的二阶接近度为0。
2.binary and weighted network
在网络的上下文中,"二值网络"和"加权网络"分别指的是不同的表示节点之间关系的方式。让我们详细了解每个概念:
- 二值网络:
- 在二值网络中,节点之间的连接以二进制方式表示,通常为存在(1)或不存在(0)。这意味着网络只捕捉连接是否存在,而不考虑连接的强度或强度。
- 二值网络通常用于关系是纯粹二进制的情况,例如在社交网络中,友谊的存在或不存在。
- 加权网络:
- 在加权网络中,每个节点之间的连接被赋予一个数字权重或值,以表示关系的强度或强度。权重通常传达了有关节点之间关联程度的额外信息。
- 当连接的强度很重要时,使用加权网络是有益的。例如,在交通网络中,权重可以表示位置之间的行车距离或行车时间。
总的来说,关键的区别在于连接是如何表示的。二值网络关注连接是否存在,而加权网络则考虑连接的强度或强度。选择二值或加权表示取决于建模关系的性质以及特定网络的特征。