Statistical physics approaches to the complex Earth system(相关系统建模理念方法的摘要)
本文翻译自"Statistical physics approaches to the complex Earth system",其虽然是针对复杂地球系统的统计物理方法的综述,但任何要研究的对象都可以看成是一个复杂系统,研究方法都可以通用或者概念借鉴,从其中找找研究的思路是一个很好的方法,不能仅仅局限于所研究的领域,尝试跨学科的理论运用可能会有更好的效果。
一、背景介绍
有许多工具和方法支持生态系统科学的进化发展。然而,值得注意的是,它们可以整合成三个相互关联的焦点:观测、建模和计算机模拟、评估和综合。介绍几种基于或源于统计物理的新方法,这些方法可以增强对地球系统如何演化的理解。关于统计物理和地球系统的跨学科观点有助于提高气候和地震系统内高影响破坏性事件的预测技能。
统计物理学是物理学的一个分支,它大量借鉴了概率定律和许多相互作用的成分的统计。它可以描述各种具有内在随机性的系统,旨在预测和解释宏观系统的可测特性和行为。它已被应用于许多问题,包括物理、生物、化学、工程和社会科学领域。统计物理并不关注每个粒子的动力学,而是关注大量粒子的宏观行为。
Sethna在他的书J. Sethna, Statistical mechanics: entropy, order parameters, and complexity, Vol. 14, Oxford University Press, 2006.
中对统计物理和复杂系统之间的关系的动机如下:“自然界中的许多系统过于复杂,无法直接分析。求解冰块中所有原子的运动,或者地震断层中的巨石,或者互联网上的节点,都是不可行的。尽管如此,这样的系统通常表现出简单、引人注目的行为。我们用统计力学来解释复杂系统的简单行为。”复杂系统通常被定义为由许多相互作用的组件组成的系统。
统计物理的概念和方法可以渗透到地球系统科学中,特别是,(1)临界现象(critical phenomena)类似于引爆点:如果一个系统接近相变点或引爆点,它将崩溃并跟随崩溃。(2)分形的概念被用来描述地球的地貌、形状、海岸线和岛屿。(3)地震过程被视为一种复杂的时空现象,并被视为一种自组织临界性(self-organised criticality,SOC)范式。此外,地震活动在时间和空间维度上都表现出标度特性。
复杂网络理论为研究复杂系统的结构、动力学和功能提供了强有力的工具。同时,统计物理是一个基本框架,为理解复杂网络的许多性质带来了理论见解。
二、方法
2.1 气候网络
在网络理论的背景下,复杂网络是具有非平凡拓扑特征的图,这些特征在简单网络中不存在。复杂网络理论的一个新颖之处在于它可以将拓扑特征与系统的功能和动力学联系起来。
在复杂网络中,地理位置(或网格点)被视为网络的节点,两个网格点的记录(时间序列)之间的相似程度(因果关系)代表链接及其强度。这些网络已经成功地用于分析、建模、理解甚至预测各种气候现象。
2.1.1 网络特性
网络,在数学文献中也称为图,是由边连接的顶点的集合。顶点和边在计算机科学中也被称为节点和链接,在物理学中被称为站点和纽带,在社会学中被称为演员和纽带,将用N表示顶点数,用M表示边数。
邻接矩阵(The Adjacency Matrix)
度(Degree)
度分布(Degree Distributions):幂律度分布的网络称为无标度网络。确定无标度属性的最简单策略是查看对数-对数图上的度数分布直方图
聚类系数(Clustering Coefficient):网络中节点在非常短的范围内聚集在一起的程度由聚集系数来衡量。
子图(Subgraphs)
2.1.2 皮尔逊相关气候网络
变量处理:选择合适的气候时间序列进行分析,例如:地面气温、海面温度、降水、风等。还经常需要一些预处理。例如,为了避免季节性的强烈影响,我们通常减去平均季节周期,然后除以每个网格点时间序列的季节标准差。
边构造,在这一步中,计算统计相似性,量化时间序列对之间的相互依赖性。每条边的强度是基于相关性的。有许多方法可以量化时间序列的相互依赖性,这里我们通过相关性方法来得到复杂网络的类型。例如,皮尔逊相关气候网络,使用皮尔逊相关来量化时间序列之间的互相关;而事件同步气候网络使用事件同步方法;互信息气候网络是基于互信息的。
网络构造:构造核心网,该核心网通常包括一些阈值标准,仅选择统计上有意义的边。然后,通过使用各种网络特性来研究所获得的网络。
气候学解释:根据气候系统的动力学过程(例如,大气环流、洋流、大量波浪等)来解释分析结果。
通过互相关函数来实现,加权有向链路的互相关函数定义也列出了参考文献。
2.1.3 事件同步(Event Synchronization )气候网络
事件同步是基于时间序列中事件(例如降雨)的相对时间,并通过例如阈值的交叉或局部最大值或最小值等来定义。事件同步特别适合研究极端事件。事件同步方法已被发现对研究脑电图信号,神经生理学信号和极端降雨事件模式有用。
2.1.4 互信息(Mutual Information)气候网络
互信息方法也是量化时间序列之间相互依赖性和构建气候网络的常用工具之一。两个随机变量的互信息是两个变量之间相互依赖性的度量。互信息的概念与随机变量的熵有着错综复杂的联系。
互信息是在独立性假设下,X和Y的联合分布相对于它们相应的联合分布所表达的固有相关性的度量。因此,互信息度量依赖性和非线性。互信息是非负的、对称的,也可以用时滞来计算。
线性和非线性方法包括皮尔逊相关、事件同步和信息论度量,如熵和互信息。还有一些其他强大的工具,如谱分析、经验正交函数分析和符号序数分析,可用于重建复杂网络。
2.2 渗流理论(Percolation Theory)
渗流最初被用来描述流体通过多孔材料的运动和过滤。
2.2.1 相变(Phase Transition)
相变的概念通常用于描述热力学物理系统中物质的固态、液态和气态之间的转变,其中有序相(如固态)在某个临界温度Tc下变为无序相(如液态)。
渗流序参数(Percolation Order Parameter):它描述了渗滤系统中的顺序,因此被称为顺序参数。
集群大小分布(Cluster Size Distribution)
平均集群大小(Average Cluster Size)
相关长度(Correlation Length):相关长度被定义为所有聚类的同一有限聚类上的被占用位置之间的均方根距离。
2.2.2 结构特性(Structural Properties)
简要介绍一些用于表征渗流团簇结构特性的基本测量方法。
分形维数(Fractal Dimension)。Stanley 将分形应用于渗流,以描述渗流阈值pc处的团簇形状。无限簇在所有长度尺度上都是自相似的,可以看作是一个分形。通常有两种方法计算给定系统的分形维数:盒计数法(box counting method),聚类增长法(cluster growing method)。这两种方法很难直接应用于网络,因为网络通常不嵌入空间。为了测量网络的分形维数,人们通常结合再归一化(renormalization)。分形维数被用来描述同一簇中任意两个点之间最短路径的结构性质。
2.2.3 标度理论(Scaling Theory)
渗流团簇的标度理论将渗流转变的临界指数与团簇尺寸分布联系起来。渗流的一个有趣性质是普适性,这是相变临界点或其附近行为的基本原理。因此,临界指数只取决于系统的维数,而与系统的微观相互作用细节无关。如果两个系统具有相同的临界指数值,则它们属于同一普遍性类。普适性是相变的一般特征。相变的特征还在于控制有限尺寸行为的标度函数。有限尺寸标度的概念为研究渗流转变提供了通用工具。
2.2.4 通用间隙缩放(Universal Gap Scaling)
间隙指数(Gap Exponents)
2.3 临界点分析(Tipping Points Analysis)
临界点通常与分叉有关。引爆点被定义为“临界质量的时刻,临界点,沸点”。许多复杂系统经历行为的突然转变,通常被称为临界点或关键转变。复杂系统可能在临界点突然从一种状态转移到另一种状态,这可能意味着突然和不可逆变化的威胁和风险越来越大。它对理解理论机制并预测倾翻现象有重要意义。
EWS(early-warning signals)目前是预测关键转变最有力的工具之一。临界点分析技术为预测、检测和预测复杂动力系统中的临界点提供了重要工具。该方法通常在时间序列中结合监控记忆,包括动态导出的滞后自相关,去趋势波动分析的幂律标度指数和基于功率谱的分析。
2.3.1 基本概念
定义临界点:临界点是系统未来状态发生质的变化的相应临界点。超过这个临界点就会发生质的变化。请注意,这种变化可能会立即发生,可能在原因发生后很久才发生。
临界点类型:复杂系统中倾覆现象背后的理论机制可以有效地分为三个不同的类别:分叉诱导(bifurcation-induced)、噪声诱导(noise-induced)和速率相关(rate-dependent)的倾覆。
分叉:意味着超过临界阈值的力(ρ)的微小变化会导致系统状态的大的非线性变化。一般来说,当一个系统接近分岔临界点时,其当前状态变得不稳定,它会导致向另一个吸引子的转移。
噪声诱导:噪声引起的复杂系统现有稳定状态之间的转换也可以被视为临界点,然而,它不符合强制变化的定义。噪声诱发的临界点意味着噪声波动导致系统偏离准静态吸引子的邻域。与接近分叉形成对比的是,发现噪声诱发的跃迁从根本上来说是不可预测的,并且没有EWS现象。
速率相关:系统不能跟踪连续变化的准静态吸引子。
除了以上三种临界点,还有一种潜在的临界点,可逆(reversible)临界点。
2.3.2 临界点预警
许多复杂的动力系统,特别是气候系统,可能有临界点,并隐含着不必要的崩溃风险。尽管在达到临界点之前预测这些临界点是一个巨大的挑战,但通用EWS的存在为预测这种临界提供了有用的指标。因此,如果可以确定临界点的早期预警,那么它可以更广泛的帮助社会、科学家和决策者采取早期行动来减少系统崩溃相关的损害。因此,许多研究致力于探测和预测这些关键的转变,经常利用EWS。在这篇综述中将重点介绍用于预测、检测和预测动态系统中关键临界点转变的分析技术。
临界点附近的临界减速(Critical slowing down near tipping points):“临界减速”现象被认为是动力系统是否接近临界阈值的指标。当系统接近临界点时,恢复平衡的速度会降低。临界减速导致滞后-1自相关(α)增加,并导致波动模式(方差)增加。减速导致固有的变化率降低,因此系统的状态变得更像其过去的状态,即自相关增加。由此产生的“记忆”的增加可以从系统的频谱中以多种方式来测量。
自相关函数(Autocorrelation function):滞后-1自相关函数(ACF(1))指标是一种为即将发生的倾覆事件提供EWS的简单方法。时间序列中两个值之间的相关系数称为ACF。特别地,滞后-1自相关是相隔一个时间步长的值之间的相关性。更一般地说,滞后的自相关是相隔s个时间步长的值之间的相关性。
去趋势波动分析(Detrended fluctuation analysis,DFA):减速会导致内存增加,这也可以使用去趋势波动分析(DFA)来衡量。DFA通常用于检测长期相关性或不同时间序列的持久性
功率谱(Power spectrum):PS分析将时间序列中的变化量划分为不同的频率。当一个系统接近临界跃迁时,它倾向于显示光谱变红,即在低频时变化更大。PS指示器是一种有用的技术,其表现类似于ACF(1)和DFA指示器。此外,它还显示出为真正的地球物理系统热带气旋提供EWS的迹象,而ACF(1)指标失败。除了从扰动中恢复较慢之外,自相关性和内存的增加、方差的增加是接近临界转变时临界减速的另一个可能指标。
转变前闪烁(Flickering before transitions):另一个值得注意的EWS是一个系统在临界跃迁附近的两个稳定态之间的来回振荡。这种振荡被称为闪烁。
偏斜度和峰度(Skewness and Kurtosis):当接近临界转变时观察到的两个进一步的前兆是状态分布的偏斜度和峰度的变化,因此被认为是EWS。偏斜度表示分布的不对称性——负偏斜表示集中在右侧,正偏斜表示相反,偏斜度是围绕分布均值的标准化第三个力矩。峰度是分布“峰值”的量度——正峰度表示峰值高于正态分布,负峰度表示峰值较低,峰度是分布均值周围的标准化第四矩。
2.4 熵与复杂性(Entropy and Complexity)
2.4.1 介绍
熵是统计力学中产生的一个重要概念。它是描述由较小组件组成的系统的状态的特征,并且它已经被用作复杂性的一般度量,具有广泛的应用。在经典热力学中,熵与不可逆过程中的能量损失有关。注意,系统的熵只有在热力学平衡时才被定义。从信息论的角度来看,克劳德·香农发展了非常一般的信息熵概念,这是信息论的一个基本基石,用来描述类似的信息损失,它是对接收前丢失的信息量的度量。信息熵的定义是\({S = - {k_S}\sum\limits_i {{p_i}\log } {p_i}}\),其中\({{k_S} = 1/\log (2)}\),\({{p_i}}\)为每个状态的概率。在量子统计力学中,熵的概念是由约翰·冯·诺依曼提出的,通常被称为“冯·诺依曼熵”。对于密度矩阵ρ描述的量子力学系统,冯·诺依曼熵是\({S = - {k_B}Tr(\rho \log \rho )}\),其中\({Tr}\)为跟踪运算符。
熵的每一种定义对某些系统来说都可能给出更好的结果,但对其他系统来说却是失败的。将在下面讨论熵作为度量有三种相关的解释,(1)不可逆变化,(2)无序,(3)不确定性。
2.4.2 熵不可逆性
不可逆的概念是理解熵的核心,不可逆的过程通常称为不可逆性,这个概念产生于热力学。所有复杂的动态自然过程都是不可逆的。对于一个具有不可逆过程的孤立系统,熵永远不会减少。这就是所谓的热力学第二定律。
2.4.3 熵的无序性
传统上,熵的另一种解释被描述为系统无序或随机性的度量。在热力学中,混合熵是两种或两种以上不同类型的粒子混合而不发生化学反应时熵的增加。
2.4.4 熵的不确定性
一般来说,对于非平衡和平衡系统,使用概率分布ρ来定义状态的集合。给定一组离散状态的概率分布,熵的第三种解释是作为对复杂系统的不确定性或无知的度量。这种解释更普遍,与信息和记忆密切相关。在这种解释中,熵不是一种内在属性,而是代表我们对系统的认识。热力学第二定律指出,孤立系统的熵永远不会减少,当且仅当所有过程都可逆时,熵才不变。信息熵代表可能的信息或图像的集合,在通信技术(信息传递)和计算机科学(数据压缩)中具有重要的意义。注意,非平衡香农熵满足以下性质:(1)对于等概率最大;(2)它不受零概率额外状态的影响;(3)它根据条件概率而变化。
2.4.5 近似熵(Approximate Entropy)、样本熵(Sample Entropy)和系统样本熵(System Sample Entropy)
近似熵(ApEn)、样本熵(SampEn)和系统样本熵(SysSampEn),它们被开发来量化非线性时间序列中的复杂性。
近似熵(ApEn):它被用来量化时间序列数据的规律性,特别是对于相对较短和有噪声的数据集。另一种熵的定义E-R熵(Eckmann-Ruelle,E-R entropy),尽管它们的算法非常相似,ApEn并不是E-R熵的近似值。与K-S、E-R和K2熵相比,ApEn具有以下优势: (1)受噪声影响较小;(2)对异常值具有鲁棒性;(3)降低计算需求;(4)对于随机、有噪声的确定性和复合过程,ApEn是有限的;(5)增加ApEn对应于直观地增加过程复杂性。
样本熵(SampEn):SampEn是ApEn的一种改进,但有三个优点:(1)SampEn比ApEn统计更赞同在广泛的操作条件下具有已知概率特性的随机数理论;(2)保持相对一致性;(3)对于非常短的记录长度具有剩余偏差。SampEn永远不是零就是正,SampEn值越小,表明数据集的自相似性越大,噪声越小。
系统样本熵(SysSampEn):前述熵的一个限制是它只能应用于单变量或双变量时间序列(交叉ApEn) 。对于一个具有多变量时间序列和时空结构的复杂系统,孟等人提出了SysSampEn,并将其应用于气候系统的研究。基于SysSampEn,可以测量由温度异常时间序列组成的系统的复杂性(无序度),并以1年的预测范围和高精度预测厄尔尼诺事件的幅度。