图数据挖掘:Erdos-Renyi随机图的生成方式及其特性

1 随机图生成简介

1.1 GnpGnm

以下是我学习《CS224W:Machine Learning With Graphs》[1]中随机图生成部分的笔记,部分补充内容参考了随机算法教材[2]和wiki[3]。随机图生成算法应用非常广泛,在NetworkX网络数据库中也内置的相关算法。我觉得做图机器学习的童鞋很有必要了解下。

Erdos-Renyi随机图[4]以两位著名的匈牙利数学家Pual Erdős和A. Rényi的名字命名的,是生成随机无向图最简单和常用的方法,包括以下两种紧密相关的变体:

  • Gnp: 拥有n个节点,且边(u,v)以独立同分布的概率p产生的无向图

  • Gnm: 拥有n个节点,且其中m条边按照均匀分布采样生成的无向图。

八卦:最常被讨论的Gnp其实是Gilbert[5]提出的,不过由于Pual Erdős和A. Rényi提出的Gnm更早一些,后来就将两种都统称Erdos-Renyi随机图了。Pual Erdős本人就是组合数学界的传奇,他开创的概率方法(Probabilistic method)以概率论为工具来证明组合数学中的存在性问题,在理论计算机科学中有着重要的应用。

迁移学习和多任务学习之间的区别

1.2 生成方法

  • Gnp:按某个次序考虑(n2)条可能边中的每一条,然后以概率p独立地往图上添加每条边。
  • Gnm: 均匀选取(n2)条可能边中的一条,并将其添加为图的边,然后再独立且均匀随机地选取剩余(n2)1可能边中的一条,并将其添加到图中,直到m边为止(可以证明,虽然是无放回采样,但是每次采样是独立的,任意一种m条边的选择结果是等概率的)。

值得一提的是,在Gnp中,一个有n个顶点的图具有m条边的概率满足分布:

((n2)m)pm(1p)(n2)m

该分布式二项分布,边的期望数为(n2)p,每个顶点度的期望为(n1)p

1.3 两种方法比较

  • 两者的相同点:节点数量都为n,且当p=m/(n2)Gnp的边数期望为m

  • 两者的区别Gnp的可能边数量在(n2)p上下波动,而Gnm则恒定有m条边。

2 Gnp随机图

2.1 只用np够吗?

np并不能完全决定一个图。我们发现即使给定np,图也有许多实现形式。如当n=10,p=1/6时,就可能产生如下的图:

迁移学习和多任务学习之间的区别

2.2 Gnp的图属性

接下来我们考虑给定np,图Gnp所可能拥有的不属性,包括度分布p(k)、聚类系数C、连通分量、平均最短路径长度h¯等。

  • 度分布

Gnp的度分布是满足二项分布的,我们设p(k)为任意节点度数的概率分布函数。当节点数n足够大时,p(k)可视为对度为k的节点所占比例的近似。我们有:

p(k)=(n1k)pk(1p)n1k(k=0,1,...,n1)

其中(n1k)表示从n1个节点中选k个节点,p为边产生的概率。该分布是二项分布,所以我们有以下均值和方差:

k¯=(n1)pσ2=(n1)p(1p)

二项分布的离散分布图像如下图所示:

迁移学习和多任务学习之间的区别

接下来我们看n足够大时可以用什么分布去近似该二项分布。概率论的知识告诉我们,当n大而p小时,该二项分布将接近于期望值λ=(n1)p=k¯的泊松分布[6],如下所示:

p(k)k¯kk!ek¯

而当而当(n1)p较大时,则除了泊松分布外,这里的二项分布还可以用正态分布去近似,如下所示:

p(k)N(k¯,σ2)

这里k¯=(n1)pσ2=(n1)p(1p)。而这正是中心极限定理的一个特殊情况。

  • 聚类系数

我们设节点i的聚类系数为

Ci=ei(ki2)

此处ei为节点i邻居之间的边数,ki为节点i的度,(ki2)为节点i的邻居间可能存在的边总数。由于Gnp中边都按照概率p独立同分布,我们有

E(ei)=(ki2)p

其中p为节点i的邻居间两两结合的概率,(ki2)为节点i的邻居间可能存在的边总数。

则我们进一步可推知图Gnp的(期望)聚类系数为:

C=E(Ci)=E(ei)(ki2)=p=k¯n1k¯n

  • 连通分量

Gnp的图结构会随着p变化,如下图所示:

迁移学习和多任务学习之间的区别

观察可知其中当巨大连通分量(gaint connected component)出现时,p=1/(n1),此时平均度k¯=(n1)p=1

平均度k=1ε(即小于1)时,所有的连通分量大小为Ω(logn)

平均度k=1+ε(即高于1)时,存在一个连通分量大小为Ω(n),其它的大小为Ω(logn)。且每个节点在期望值上至少有一条边。

如下图所示为Gnp中,n=100000k¯=(n1)p=0.5,...,3 时的模拟实验图像:

迁移学习和多任务学习之间的区别

根据模拟实验,在Gnp中,平均度大于1时,巨大连通分量恰好出现。

  • 平均最短路径长度

Erdos-Renyi随机图即使扩展到很大,仍然可以保证节点之间只有几跳(hops)的距离,如下所示为图的平均最短路径长度h¯随节点数量变化的关系图:

迁移学习和多任务学习之间的区别

可以看到平均最短路径长度h¯随着节点数量n增长并满足O(logn)的增长阶。

2.3 真实网络和Gnp的对比

相似点: 存在大的连通分量,平均最短路径长度

不同点: 聚类系数,度分布

在实际应用中,随机图模型可能有以下问题:

  • 度分布可能和真实网络不同,毕竟真实网络不是随机的。
  • 真实网络中巨大连通分量的出现可能不具有规律性。
  • 可能不存在局部的聚类结构,以致聚类系数太小。

3 代码库

NetworkX中内置了Erdos-Renyi随机图的生成函数,包括GnpGnm。就是需要注意Gnp的API[7]

erdos_renyi_graph(n, p, seed=None, directed=False)

该API与binomial_graph gnp_random_graph作用是相同的。

Gnm的API[8]

nm_random_graph(n, m, seed=seed, directed=False)

故大家在实际使用中要注意区分。

参考

posted @   orion-orion  阅读(3946)  评论(3编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~
点击右上角即可分享
微信分享提示