随笔分类 -  图机器学习

摘要:图机器学习:从图谱角度来理解图增广图对比学习(Graph Contrastive Learning, GCL)旨在以自监督的方式学习图的节点表征。具体而言,先以特定方式对原图A进行增广,得到两个增广后的视图(view)V1和V2做为对比对(也可以是原图和增广后的视图做为对比对),并经由GCN进行编码得到两个增广视图中的节点embeddings。接着,对于某个目标节点i,我们需要使其在某个增广视图中的embedding去接近在另一个增广视图中的正样本embedding,而远离负样本embedding。不过,均匀随机的边扰动很难做为有效的增广来使用,这启发我们去构思比均匀扰动更好的图增广方法。我们知道图谱可以做为许多图的结构属性的一个综合性总结,包括聚类系数、连通性等等。那么,基于图谱的图增广方法就是顺理成章的了。 阅读全文
posted @ 2023-10-23 12:28 orion-orion 阅读(720) 评论(0) 推荐(1) 编辑
摘要:谱图论:Laplacian算子及其谱性质K为图G的MarKov转移算子,则我们称算子L = I - K为图G的(归一化)Laplacian算子。通过研究L,我们就能把握Laplacian二次型E[f]=⟨f, Lf⟩的特性,从而把握图G的特性,这是谱图理论中至关重要的一点。事实上,我们可以找到Laplacian算子的n个相互正交的规范化特征向量(范数为1)及其对应的特征值。而这事实上和我们在线性代数课程中所学过的谱定理密切相关。我们前面证明过Markov转移算子K是自伴的,则L=I−K也是自伴的(事实上,又由于⟨f, Lf⟩⩾0,L还是半正定的)。 阅读全文
posted @ 2023-10-19 00:24 orion-orion 阅读(658) 评论(0) 推荐(0) 编辑
摘要:谱图论:Laplacian二次型和Markov转移算子以下部分是我学习CMU 15-751: TCS Toolkit的课堂笔记。接下来将要介绍的是谱图论(spectral graph theory)的关键,也就是Laplacian二次型(Laplacian quadratic form)。直观地理解,Laplacian二次型刻画了图的“能量”(energy)。它在其它语境下,又被称为Dirichlet形式(Dirichlet form),局部方差(local variance),解析边界大小(analytic boundary size)。直觉上,其值越小,也就意味着f更加“光滑”(smooth),即其值不会沿着边变化得太剧烈。 阅读全文
posted @ 2023-09-27 00:32 orion-orion 阅读(458) 评论(0) 推荐(0) 编辑
摘要:图数据挖掘:幂律分布和无标度网络我们发现,现实世界许多网络的节点度分布与幂函数乘正比。事实上,航空网络的度分布常常满足幂律分布;而高速公路网络的度分布则常常满足泊松分布(指数族分布的一种),其均值为平均度。幂律分布就是一种典型的重尾分布(就像我们前面所展示的节点度高度倾斜)。但需要注意的是,正态分布和指数分布不是重尾分布。 阅读全文
posted @ 2022-11-05 22:52 orion-orion 阅读(2038) 评论(0) 推荐(0) 编辑
摘要:图数据挖掘:基于概率的流行病模型这篇博客让我们来介绍基于概率的传播模型,这种模型基于对数据的观测来构建,不过不能对因果性进行建模。基于随机树的传染病模型是分支过程(branching processes)的一种变种。在这种模型中,一个病人可能接触d个其他人,对他们中的每一个都有概率q>0将其传染,接下来我们来看当d和q取何值时,流行病最终会消失(die out) 阅读全文
posted @ 2022-11-04 22:32 orion-orion 阅读(586) 评论(0) 推荐(2) 编辑
摘要:图数据挖掘:网络中的级联行为我们现在来研究网络中的传播。事实上,在网络中存在许多从节点到节点级联的行为,就像传染病一样。这在不同领域中都有所体现,比如生物中的传染性疾病;信息技术中的级联故障与信息的传播;社会学中的谣言、新闻、新技术的传播以及虚拟市场。其中在信息技术中信息就会经由媒体来进行扩散(diffusion)。接下来我们看如何基于网络构建传播模型。以传染病为例,传染病会沿着网络的边进行传播。这种传播形成了一个传播树,也即级联。 阅读全文
posted @ 2022-11-03 21:57 orion-orion 阅读(738) 评论(0) 推荐(0) 编辑
摘要:图数据挖掘:小世界网络模型和分散式搜索哈佛大学心理学教授斯坦利·米尔格拉(Stanley Milgram)早在1967年就做过一次连锁实验,他将一些信件交给自愿的参加者,要求他们通过自己的熟人将信传到信封上指明的收信人手里。他发现,296封信件中有64封最终送到了目标人物手中。而在成功传递的信件中,平均只需要5次转发,就能够到达目标。也就是说,在社会网络中,任意两个人之间的“距离”是6。这就是所谓的六度分隔理论,也称小世界现象。尽管他的实验有不少缺陷,但这个现象引起了学界的注意。 阅读全文
posted @ 2022-11-03 11:57 orion-orion 阅读(976) 评论(0) 推荐(1) 编辑
摘要:图数据挖掘:网络的常见度量属性网络的度分布p(k)表示了一个随机选择的节点拥有度k的概率。我们设度为k的节点数目Nk =#nodes with degree k,除以节点数量N则可得到归一化后的概率质量分布 p(k) = Nk/N。图的路径(path)指一个节点序列,使得序列中的每个节点都链接到序列中的下一个节点,一个路径可以通过经过同一条边多次而和它自身相交。 阅读全文
posted @ 2022-11-02 12:00 orion-orion 阅读(1126) 评论(0) 推荐(0) 编辑
摘要:图数据挖掘:网络的基本概念和表示方法网络(network)是一些通过链接(links)连接起来的对象集合,它包含以下成分:对象:节点(nodes)/顶点(vertices), 用N表示;交互:链接(links)/边(edges),用E表示;对象和交互组成的系统我们就称为网络(或图,graph),用G(N,E)表示。 阅读全文
posted @ 2022-11-02 01:33 orion-orion 阅读(1136) 评论(0) 推荐(1) 编辑
摘要:知识图谱实体对齐:无监督和自监督的方法我们在前面介绍的都是有监督的知识图谱对齐方法,它们都需要需要已经对齐好的实体做为种子(锚点),但是在实际场景下可能并没有那么多种子给我们使用。为了解决这个问题,有许多无监督/自监督的知识图谱对齐方法被提出。其中包括基于GAN的方法,基于对比学习的方法等。他们在不需要事先给定锚点的情况下将来自不同知识图谱实体embeddings映射到一个统一的空间。 阅读全文
posted @ 2022-10-21 19:37 orion-orion 阅读(1052) 评论(2) 推荐(0) 编辑
摘要:知识图谱实体对齐:基于GNN嵌入的方法我们在上一篇博客中介绍如何对基于平移嵌入+对齐损失来完成知识图谱中的实体对齐。这些方法都是通过两个平移嵌入模型来将知识图谱G1和G2的重叠实体分别进行嵌入,并加上一个对齐损失来完成对齐。不过,除了基于平移的嵌入模型之外,是否还有其它方式呢?答案是肯定的。目前已经提出了许多基于GNN的实体对齐方法,这些方法不仅采用GNN捕捉更多的实体结构化信息,还通过诸如参数共享、参数交换等方式在embedding模块中就使实体的embeddings尽可能统一到一个向量空间。 阅读全文
posted @ 2022-10-14 10:03 orion-orion 阅读(2461) 评论(0) 推荐(0) 编辑
摘要:知识图谱实体对齐:基于平移(translation)嵌入的方法在知识图谱领域,最重要的任务之一就是实体对齐 (entity alignment, EA)。实体对齐旨在从不同的知识图谱中识别出表示同一个现实对象的实体。由于embedding模块独立地学习知识图谱的emebddings,这使得多个知识图谱的embeddings落入到不同的向量空间中。而alignment模块旨在将两个知识图谱的embeddings统一(unify)到同样的向量空间中,这样就能够识别出对齐的实体了,而这个统一操作也是知识图谱对齐最大的挑战。 阅读全文
posted @ 2022-09-30 01:18 orion-orion 阅读(3367) 评论(1) 推荐(0) 编辑
摘要:图数据挖掘:Erdos-Renyi随机图的生成方式及其特性Erdos-Renyi随机图以两位著名的匈牙利数学家P.Erdős和A. Rényi的名字命名的,是生成随机无向图最简单和常用的方法,包括以下两种紧密相关的变体:G(n,p): 拥有n个节点,且边(u, v)以独立同分布的概率p产生的无向图;G(n, m): 拥有n个节点,且其中m条边按照均匀分布采样生成的无向图。G(n, p)生成时按某个次序考虑所有可能边中的每一条,然后以概率p独立地往图上添加每条边。 阅读全文
posted @ 2022-05-10 19:20 orion-orion 阅读(3931) 评论(3) 推荐(3) 编辑
摘要:图数据挖掘:重叠和非重叠社区检测算法最近需要学习图结构中的社区检测算法,在阅读相关论文的同时跟了Stanford CS246课程的第11讲Community Detection in Graphs,本篇博客为我做的笔记。我们通常认为网络中存在某种模块(modules)/簇(clusters)/社区(communitis)结构,我们常常需要从网络中提取这些结构。而提取这些结构的关键在于发现密集连接的簇,而这常常可以转化为一个优化关于簇的目标函数的问题。按照图的社区划分之间是否重叠,可分为重叠社区检测和非重叠社区检测。非重叠社区检测是指图的社区划分之间没有重叠,而重叠社区检测则允许有重叠。 阅读全文
posted @ 2021-12-08 16:32 orion-orion 阅读(4847) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示