巴拉巴西网络科学4——第三章:无标度性质
又有几天没写了,实在是这几章东西越来越多了,难度也逐渐上升了。
第三章:无标度性质
无标度网络是度分布服从幂律分布的网络。
注意在离散和连续形式下的归一化条件不同。
随机网络和无标度网络的主要区别体现在度分布的尾部,即\(p_k\)中k比较大的区域。
下图是两者的对比。
枢纽节点在随机网络中不存在,在无标度网络中自然出现。
无标度的含义
无标度一词源于统计物理学的分支——相变理论。相变理论在20实际六七十年代对幂律进行了广泛且深入的研究。
对于很多无标度网络,度指数\(\gamma\)都在2和3之间。对于这些网络在\(N \rightarrow \infty\)时, 一阶矩\(\langle k\rangle\)是有限的,二阶矩\(\langle k^2\rangle\)及更高阶的矩都趋向无穷大,高阶矩的发散可以帮助理解“无标度”一词的由来。无标度意味着随机选择一个节点时,我们不知道该节点的度会有多大,可以任意小,也可以时任意大。 但是随机网络是有标度的,对于度服从泊松分布的随机网络而言,标准差总是小于平均度\(\langle k\rangle\), 网络中节点的度的范围在\(k=\langle k \rangle \pm \langle k\rangle^{1/2}\)内。换句话说,随机网络中,节点的度相差不大,平均度可以作为随机网络的“标度”。无标度体现了缺少有意义的内在标度,这是网络中度相差很大的节点同时存在的结果。
一点子题外话,wj老师有句名言:平均分能平均谁啊,平均pzc吗?
无标度网络对应在图像上的特征是,网络和子网络之间具有某种程度的自相似性。也就是说,选定网络的某一个子区域进行放大,会发现它的结构和原网络很相似,让人不知道是处于哪个尺度(如图12,或图2右侧的互联网)。无标度网络的这种标度或尺度不变(或伸缩不变)的特征,在数学上叫做分形。
快速判断一个网络用随机网络拟合的好坏:将标准差和随机网络的标准差\(\sigma=\langle k \rangle^{1/2}\)比较。
不是所有网络都是无标度的
无标度性质的存在,要求每个节点都有连接任意数量的其他节点的能力。在一些系统中,一个节点能够拥有的链接数是受限的,从而约束了枢纽节点的大小,导致无标度性质不再存在。
- 在材料科学中,描述晶体/非晶体材料原子之间连接的网络。例如:碳原子只能和其他原子共享4个电子。
- The neural network of the C. elegans worm 一种线虫的神经元网络。
- 节点为发电机和交换器,链接为传输电线的电网。
超小世界性质
无标度网络会影响小世界性质吗?会,计算结果发现,同等条件下,无标度网络中节点间的平均距离比随机网络中节点间的平均距离要小。
平均距离\(\langle d \rangle\)对系统大小N和度指数\(\gamma\)的依赖可以表述为下面的公式。
无标度性质对网络距离有几点影响:
- 降低平均路径长度(因为枢纽节点的存在)
- 改变\(\langle d \rangle\)对系统大小的依赖关系
- 只有在\(\gamma > 3\)时,才会出现依赖关系\(lnN\)——随机网络小世界性质的体现。
度指数的作用
上图说明了无标度网络的性质与度指数\(\gamma\)的关系。
为什么\(\gamma < 2\)的无标度网络不存在:当\(\gamma < 2\)时,可图化的度序列的数量为0.
生成任意度分布的网络
配置模型 The Configuration Model
在生成的时候会形成自环和多重链接
度保持的网络随机化 Degree Preserving Randomization
注意:Full Randomization(完全随机化)将任何网络都变成了ER网络,具有泊松度分布。
隐参数模型 Hidden Parameter Model
在生成的时候不含自环和多重链接
这几种模型都有着局限性:一些重要的网络特性,包括聚集特性和度相关性,在随机化过程中将会消失。
对于生成算法的选择,下图有着详细的解释。
小结
一旦有枢纽节点存在,枢纽节点就会从根本上改变系统的行为。超小性就是枢纽节点对网络性质产生影响的例子之一。无标度性质告诉我们,必须区分两种完全不同类型的网络:指数限界网络和重尾网络。
指数限界网络 Exponentially Bounded Networks
如果一个网络的度分布在k较大时成指数下降\(e^{-x}\)或以更快的速率下降,我们称该网络时指数限界的(exponentially bounded)。这类网络中,\(\langle k^2 \rangle\)比\(\langle k \rangle\)要小,这意味着节点的度不存在显著差异。这类度分布\(p_k\)包括泊松分布、高斯分布或简单的指数分布。Erdős-Rényi网络和Watts-Strogatz网络是这一类别下最著名的两种网络模型。指数限界的网络中没有异常点,因此大多数节点的度相差不大。属于这一类别的真实网络有高速公路网络和电网。
重尾网络 Fat Tailed Networks
如果一个网络的度分布在k较大时服从幂律分布,我们称该网络为重尾的(fat tailed). 这类网络中,\(\langle k^2 \rangle\)比\(\langle k \rangle\)要大很多,节点的度差异很大。度分布服从幂律分布的无标度网络是这一类别下最著名的例子。异常点或者说都非常大的节点,在这些网络中不仅允许出现,更被期待出现。属于这一类别的真实网络包括万维网、互联网、蛋白质相互作用网络,以及大多数社会网络。
重尾分布的关键特点是\(\langle k^2 \rangle\)的数量级:如果\(\langle k^2 \rangle\)较大,则系统表现得像一个无标度网络;如果\(\langle k^2 \rangle\)较小——和\(\langle k \rangle\)相近,则系统可以用随机网络很好地近似。
总之,在无标度网络中,少数高度链接的枢纽节点和大量度很小的节点共存。这些枢纽节点的存在对于系统行为具有重要影响。
幂律分布
幂律分布也被叫做(有时不正确的)胖尾分布、重尾分布、长尾分布、帕累托分布或布拉德福(Bradford)分布。幂律分布还有一系列的近亲,例如对数正态分布 (log-normal)、韦伯分布 (Weibull) 和莱维分布 (Levy)。
指数限界分布
当\(x\)较大时,分布\(p_x\)或者以指数\(e^{-x}\)下降或以更快的速率衰减,因此\(x\)的期望最大值有一个上界\(x_{max}\),这个上界使得\(x\)的期望最大值和\(\langle x \rangle\)相差不大。实际上,从限界分布\(p_x\)中抽取N个数时,我们会发现\(x\)的期望最大值以\(x_{max} \sim logN\)或更慢的速度增长。解析角度讲,最简单的限界分布是指数分布\(e^{-\lambda x}\),在网络科学中,最长遇到的限界分布是泊松分布(或二项分布)。在网络科学之外,最长遇到的限界分布是正态(高斯)分布。
重尾分布
在\(x\)较大时衰减速率比指数慢的分布\(p_x\)。重尾分布的一个显著特征是,从该分布中抽取出的\(x\)的值可以跨越几个数量级。
重尾分布对于网络的意义体现在如下方面:
- 网络中的很多量,例如度、链接的权重、介数中心度等,在真实网络和模型网络中都服从幂律分布。
- 幂律分布可以通过合适的网络模型来分析预测。
交叉分布、对数正态分布、广延指数分布 Crossover distribution
当实际观察到的分布看起来介于幂律分布和指数分布之间时,常使用交叉分布对观察数据进行拟合。这类分布可能时指数限界的(具有指数截断的幂律分布),也可能是无限界的,但衰减速率对幂律分布要快。
具有指数截断的幂律分布,通常用于拟合真实网络的度分布。
广延指数分布(韦伯分布)和具有指数截断的幂律分布类似,不同的是其指数项上有一个分数幂律。
如果lnx服从正态分布,我们说x服从对数正太分布(也称高尔顿或吉布拉分布)。一般而言,服从对数正太分布的变量是许多正的独立随机变量的乘积。例如,在金融领域遇到的对数正太分布表示一系列交易的综合收益。
在重尾分布存在的领域中,一直存在着一个争论:用哪种分布可以对这类数据做出最佳拟合。常见的候选分布包括:幂律分布、广延指数分布、对数正态分布。
这个争论最终靠准确的机理模型来解决——这些模型能解析并预测出期望的度分布。
上图是网络科学中常用的一些分布。注意它们是需要归一化的。
绘制幂律分布
使用双对数坐标。由于\(log0=-\infty\),在双对数坐标下,\(p_k=0\)和\(k=0\) 对应的点无法显示。
避免线性分箱
最有缺陷的方法(却经常在文献中看到)是简单地将\(p_k=N_k/N\)绘制在双对数坐标下。这种方法叫线性分箱(linear binning),每个分箱的大小都一样 \(\Delta k=1\)。对于无标度网络,线性分箱会在k较大时形成一个明显的平缓区,即大量数据点构成一个水平线。
使用对数分箱
对数分箱修正了线性分箱中的非均匀采样问题。在对数分箱中,分箱的大小随着度的增大而增大,从而确保每个分箱中的节点数大致相当。
使用累积分布
这种方式同样增强了度较高区域的统计显著性。累计分布消除; 线性分箱中出现的平缓区,从而得到一个延伸了的标度区域,使我们能够对度指数进行更精确的估计。
真实网络中的度分布
在真实系统中,我们很少看到服从纯粹幂律的度分布。实际上,大多数真实系统的\(p_k\)呈现出一些特点:
- 低度饱和(low-degree saturation)是一种常见的偏离幂律分布的情况。低度饱和表现为\(k < k_{sat}\)时\(p_k\)是平的。这表明,小度节点的数量比纯幂律分布所预期的要少。
- 高度截断是指度分布\(p_k\)在\(k>k_{cut}\)时有一个快速下降。这表明,大度节点的数量比纯幂律分布所预期的要少。这限制了最大枢纽节点的大小,使其比理论预测的要少。如果节点可以拥有的链接数存在固有的限制,高度截断就会发生。例如,在社交网络中,一个人很难和大量的人都维持着熟人关系。
人们有时会认为,低度和高度截断的出现意味着网络不是无标度的。这是对无标度性质的一种误解:实际上,无标度网络的所有性质对帝都饱和都是不敏感的。只有高度截断会影响系统的性质,因为高度截断会限制二阶矩\(\langle k^2 \rangle\)的发散。
拟合方法
由于度分布通常表示为一系列正整数\(k_{min},..., k_{max}\),我们主要考虑如何从一组离散数据点中估计\(\gamma\)。
具体的参见barabasi_network_science_ch3.pdf P48.
拟合优度
得到了使用幂律分布拟合数据集的最佳参数对\((\gamma, K_{min})\)并不意味着幂律分布本身是拟合该数据集的一个好模型。因此,我们需要拟合优度检验。拟合优度产生一个\(p\)值,用来量化幂律分布假设的合理性。
具体的参见barabasi_network_science_ch3.pdf P49.
拟合问题总结
- 纯幂律分布是一个理想的分布,现实中很多过程都会影响真实网络的拓扑结构,从而影响度分布的形状。我们首先应该确定\(p_k\)是不是符合幂律分布的形式。
- 对于outliers的处理。如果保留就难以检测统计上的显著性。在真实系统中,有很多原因对造成这种局部偏离,而这种偏离对系统整体行为影响甚微。
综上所述,估计度指数仍然是一个尚未成熟的技术,我们依然缺乏既可以得到统计显著性,又可以在实践中被接受的方法。