巴拉巴西网络科学4——第三章:无标度性质
又有几天没写了,实在是这几章东西越来越多了,难度也逐渐上升了。
第三章:无标度性质
无标度网络是度分布服从幂律分布的网络。
注意在离散和连续形式下的归一化条件不同。
随机网络和无标度网络的主要区别体现在度分布的尾部,即
下图是两者的对比。
枢纽节点在随机网络中不存在,在无标度网络中自然出现。
无标度的含义
无标度一词源于统计物理学的分支——相变理论。相变理论在20实际六七十年代对幂律进行了广泛且深入的研究。
对于很多无标度网络,度指数
一点子题外话,wj老师有句名言:平均分能平均谁啊,平均pzc吗?
无标度网络对应在图像上的特征是,网络和子网络之间具有某种程度的自相似性。也就是说,选定网络的某一个子区域进行放大,会发现它的结构和原网络很相似,让人不知道是处于哪个尺度(如图12,或图2右侧的互联网)。无标度网络的这种标度或尺度不变(或伸缩不变)的特征,在数学上叫做分形。
快速判断一个网络用随机网络拟合的好坏:将标准差和随机网络的标准差
不是所有网络都是无标度的
无标度性质的存在,要求每个节点都有连接任意数量的其他节点的能力。在一些系统中,一个节点能够拥有的链接数是受限的,从而约束了枢纽节点的大小,导致无标度性质不再存在。
- 在材料科学中,描述晶体/非晶体材料原子之间连接的网络。例如:碳原子只能和其他原子共享4个电子。
- The neural network of the C. elegans worm 一种线虫的神经元网络。
- 节点为发电机和交换器,链接为传输电线的电网。
超小世界性质
无标度网络会影响小世界性质吗?会,计算结果发现,同等条件下,无标度网络中节点间的平均距离比随机网络中节点间的平均距离要小。
平均距离
无标度性质对网络距离有几点影响:
- 降低平均路径长度(因为枢纽节点的存在)
- 改变
对系统大小的依赖关系 - 只有在
时,才会出现依赖关系 ——随机网络小世界性质的体现。
度指数的作用
上图说明了无标度网络的性质与度指数
为什么
生成任意度分布的网络
配置模型 The Configuration Model
在生成的时候会形成自环和多重链接
度保持的网络随机化 Degree Preserving Randomization
注意:Full Randomization(完全随机化)将任何网络都变成了ER网络,具有泊松度分布。
隐参数模型 Hidden Parameter Model
在生成的时候不含自环和多重链接
这几种模型都有着局限性:一些重要的网络特性,包括聚集特性和度相关性,在随机化过程中将会消失。
对于生成算法的选择,下图有着详细的解释。
小结
一旦有枢纽节点存在,枢纽节点就会从根本上改变系统的行为。超小性就是枢纽节点对网络性质产生影响的例子之一。无标度性质告诉我们,必须区分两种完全不同类型的网络:指数限界网络和重尾网络。
指数限界网络 Exponentially Bounded Networks
如果一个网络的度分布在k较大时成指数下降
重尾网络 Fat Tailed Networks
如果一个网络的度分布在k较大时服从幂律分布,我们称该网络为重尾的(fat tailed). 这类网络中,
重尾分布的关键特点是
总之,在无标度网络中,少数高度链接的枢纽节点和大量度很小的节点共存。这些枢纽节点的存在对于系统行为具有重要影响。
幂律分布
幂律分布也被叫做(有时不正确的)胖尾分布、重尾分布、长尾分布、帕累托分布或布拉德福(Bradford)分布。幂律分布还有一系列的近亲,例如对数正态分布 (log-normal)、韦伯分布 (Weibull) 和莱维分布 (Levy)。
指数限界分布
当
重尾分布
在
重尾分布对于网络的意义体现在如下方面:
- 网络中的很多量,例如度、链接的权重、介数中心度等,在真实网络和模型网络中都服从幂律分布。
- 幂律分布可以通过合适的网络模型来分析预测。
交叉分布、对数正态分布、广延指数分布 Crossover distribution
当实际观察到的分布看起来介于幂律分布和指数分布之间时,常使用交叉分布对观察数据进行拟合。这类分布可能时指数限界的(具有指数截断的幂律分布),也可能是无限界的,但衰减速率对幂律分布要快。
具有指数截断的幂律分布,通常用于拟合真实网络的度分布。
广延指数分布(韦伯分布)和具有指数截断的幂律分布类似,不同的是其指数项上有一个分数幂律。
如果lnx服从正态分布,我们说x服从对数正太分布(也称高尔顿或吉布拉分布)。一般而言,服从对数正太分布的变量是许多正的独立随机变量的乘积。例如,在金融领域遇到的对数正太分布表示一系列交易的综合收益。
在重尾分布存在的领域中,一直存在着一个争论:用哪种分布可以对这类数据做出最佳拟合。常见的候选分布包括:幂律分布、广延指数分布、对数正态分布。
这个争论最终靠准确的机理模型来解决——这些模型能解析并预测出期望的度分布。
上图是网络科学中常用的一些分布。注意它们是需要归一化的。
绘制幂律分布
使用双对数坐标。由于
避免线性分箱
最有缺陷的方法(却经常在文献中看到)是简单地将
使用对数分箱
对数分箱修正了线性分箱中的非均匀采样问题。在对数分箱中,分箱的大小随着度的增大而增大,从而确保每个分箱中的节点数大致相当。
使用累积分布
这种方式同样增强了度较高区域的统计显著性。累计分布消除; 线性分箱中出现的平缓区,从而得到一个延伸了的标度区域,使我们能够对度指数进行更精确的估计。
真实网络中的度分布
在真实系统中,我们很少看到服从纯粹幂律的度分布。实际上,大多数真实系统的
- 低度饱和(low-degree saturation)是一种常见的偏离幂律分布的情况。低度饱和表现为
时 是平的。这表明,小度节点的数量比纯幂律分布所预期的要少。 - 高度截断是指度分布
在 时有一个快速下降。这表明,大度节点的数量比纯幂律分布所预期的要少。这限制了最大枢纽节点的大小,使其比理论预测的要少。如果节点可以拥有的链接数存在固有的限制,高度截断就会发生。例如,在社交网络中,一个人很难和大量的人都维持着熟人关系。
人们有时会认为,低度和高度截断的出现意味着网络不是无标度的。这是对无标度性质的一种误解:实际上,无标度网络的所有性质对帝都饱和都是不敏感的。只有高度截断会影响系统的性质,因为高度截断会限制二阶矩 的发散。
拟合方法
由于度分布通常表示为一系列正整数
具体的参见barabasi_network_science_ch3.pdf P48.
拟合优度
得到了使用幂律分布拟合数据集的最佳参数对
具体的参见barabasi_network_science_ch3.pdf P49.
拟合问题总结
- 纯幂律分布是一个理想的分布,现实中很多过程都会影响真实网络的拓扑结构,从而影响度分布的形状。我们首先应该确定
是不是符合幂律分布的形式。 - 对于outliers的处理。如果保留就难以检测统计上的显著性。在真实系统中,有很多原因对造成这种局部偏离,而这种偏离对系统整体行为影响甚微。
综上所述,估计度指数仍然是一个尚未成熟的技术,我们依然缺乏既可以得到统计显著性,又可以在实践中被接受的方法。
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)