图数据挖掘:Erdos-Renyi随机图的生成方式及其特性
1 随机图生成简介
1.1 和
以下是我学习《CS224W:Machine Learning With Graphs》[1]中随机图生成部分的笔记,部分补充内容参考了随机算法教材[2]和wiki[3]。随机图生成算法应用非常广泛,在NetworkX网络数据库中也内置的相关算法。我觉得做图机器学习的童鞋很有必要了解下。
Erdos-Renyi随机图[4]以两位著名的匈牙利数学家Pual Erdős和A. Rényi的名字命名的,是生成随机无向图最简单和常用的方法,包括以下两种紧密相关的变体:
-
: 拥有个节点,且边以独立同分布的概率产生的无向图
-
: 拥有个节点,且其中条边按照均匀分布采样生成的无向图。
八卦:最常被讨论的其实是Gilbert[5]提出的,不过由于Pual Erdős和A. Rényi提出的更早一些,后来就将两种都统称Erdos-Renyi随机图了。Pual Erdős本人就是组合数学界的传奇,他开创的概率方法(Probabilistic method)以概率论为工具来证明组合数学中的存在性问题,在理论计算机科学中有着重要的应用。

1.2 生成方法
- :按某个次序考虑条可能边中的每一条,然后以概率独立地往图上添加每条边。
- : 均匀选取条可能边中的一条,并将其添加为图的边,然后再独立且均匀随机地选取剩余可能边中的一条,并将其添加到图中,直到边为止(可以证明,虽然是无放回采样,但是每次采样是独立的,任意一种条边的选择结果是等概率的)。
值得一提的是,在中,一个有个顶点的图具有条边的概率满足分布:
该分布式二项分布,边的期望数为,每个顶点度的期望为。
1.3 两种方法比较
-
两者的相同点:节点数量都为,且当时的边数期望为;
-
两者的区别:的可能边数量在上下波动,而则恒定有条边。
2 随机图
2.1 只用和够吗?
和并不能完全决定一个图。我们发现即使给定和,图也有许多实现形式。如当时,就可能产生如下的图:

2.2 的图属性
接下来我们考虑给定和,图所可能拥有的不属性,包括度分布、聚类系数、连通分量、平均最短路径长度等。
- 度分布
的度分布是满足二项分布的,我们设为任意节点度数的概率分布函数。当节点数足够大时,可视为对度为的节点所占比例的近似。我们有:
其中表示从个节点中选个节点,为边产生的概率。该分布是二项分布,所以我们有以下均值和方差:
二项分布的离散分布图像如下图所示:

接下来我们看足够大时可以用什么分布去近似该二项分布。概率论的知识告诉我们,当大而小时,该二项分布将接近于期望值的泊松分布[6],如下所示:
而当而当较大时,则除了泊松分布外,这里的二项分布还可以用正态分布去近似,如下所示:
这里,。而这正是中心极限定理的一个特殊情况。
- 聚类系数
我们设节点的聚类系数为
此处为节点邻居之间的边数,为节点的度,为节点的邻居间可能存在的边总数。由于中边都按照概率独立同分布,我们有
其中为节点的邻居间两两结合的概率,为节点的邻居间可能存在的边总数。
则我们进一步可推知图的(期望)聚类系数为:
- 连通分量
图的图结构会随着变化,如下图所示:

观察可知其中当巨大连通分量(gaint connected component)出现时,,此时平均度。
平均度(即小于1)时,所有的连通分量大小为;
平均度(即高于1)时,存在一个连通分量大小为,其它的大小为。且每个节点在期望值上至少有一条边。
如下图所示为中,, 时的模拟实验图像:

根据模拟实验,在中,平均度大于1时,巨大连通分量恰好出现。
- 平均最短路径长度
Erdos-Renyi随机图即使扩展到很大,仍然可以保证节点之间只有几跳(hops)的距离,如下所示为图的平均最短路径长度随节点数量变化的关系图:

可以看到平均最短路径长度随着节点数量增长并满足的增长阶。
2.3 真实网络和的对比
相似点: 存在大的连通分量,平均最短路径长度
不同点: 聚类系数,度分布
在实际应用中,随机图模型可能有以下问题:
- 度分布可能和真实网络不同,毕竟真实网络不是随机的。
- 真实网络中巨大连通分量的出现可能不具有规律性。
- 可能不存在局部的聚类结构,以致聚类系数太小。
3 代码库
NetworkX中内置了Erdos-Renyi随机图的生成函数,包括和。就是需要注意的API[7]是
erdos_renyi_graph(n, p, seed=None, directed=False)
该API与binomial_graph
、gnp_random_graph
作用是相同的。
而的API[8]是
nm_random_graph(n, m, seed=seed, directed=False)
故大家在实际使用中要注意区分。
参考
-
[2] Mitzenmacher M, Upfal E. Probability and computing: Randomization and probabilistic techniques in algorithms and data analysis[M]. Cambridge university press, 2017.
-
[4] Erdős P, Rényi A. On the evolution of random graphs[J]. Publ. Math. Inst. Hung. Acad. Sci, 1960, 5(1): 17-60.
-
[5] Gilbert E N. Random graphs[J]. The Annals of Mathematical Statistics, 1959, 30(4): 1141-1144.
-
[6] Feller W. An introduction to probability theory and its applications[J]. 1, 2nd, 1967.
-
[8] https://networkx.org/documentation/stable/auto_examples/graph/plot_erdos_renyi.html?highlight=renyi
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~