计算方法4 图的随机游走

Markov Chain 的本质是概率状态机,这么想就很简单了

为了偷懒只讨论有限的情形

前置

离散概率分布可以表示为 Rn 上的向量 x,满足 i=1nxi=1i,xi[0,1]

对于用向量表示的概率分布,可以定义两个分布的“距离”:

dTV(p,q)=12\normpq1=12i=1n\abspiqi

这里 dTV(,) 表示 total variation distance。这样就可以定义一列分布的收敛性和极限了。

Markov Chain

对于一系列数量有限的状态,给出每个状态转移到下一个状态的概率 Pr[si=ysi1=x],这就构成了一个状态机。把状态看成点,转移概率看成边权,就得到了一个有向带权图,并且这个图满足一些特殊的性质。

考虑怎么算出现在状态 i 的概率,这本质上是一个一阶递推,写出来就是

pk+1=Tpk

这里 pk 表示走了恰好 k 步后,处在每个状态上的概率分布

定义

周期

对于状态 i,其周期定义为 gcd{tPti,i>0},记为 period(i)。称 Markov Chain 非周期当且仅当所有状态的周期都是 1

直观理解:从 i 出发后走恰好 t 步回到 i,所有这样的圈的长度的 gcd 即为周期。

这么定义的用处可以在后面看到。

不可约

有限图不可约当且仅当其为强连通图。此处强连通的定义为:任取 x,yV(G),存在两条有向路径 P1,P2 使得 P1=xy,P2=yx不要求 P1,P2 点不相交

性质

若 Markov Chain 不可约、非周期,则存在常数 T 使得当 t>T 时,Pti,j>0 对任意 i,j 成立

直观理解:走了足够多步后不存在走不到的状态。

只需要证明存在常数 L,使得任意长度至少为 U 的路径,都能在任意两点间找到。

  1. 不可约,则 i,j 存在有向路径 ij
  2. 非周期,则存在最大的无法由两个圈线性组合出的正整数 a×bab (NOIP2017,哈哈),记为 mn(i),则此后的任意长度都可以由两个互质的圈线性组合出来。
  3. 只需要取 T=n+max{mn(i)},则此后可以在任意节点对之间游走。

稳态分布

考虑给定初始分布 p0,则极限 limkPkp0 称为 Markov Chain 的极限分布。

若分布 π 满足 Pπ=π,则称 π 为平衡分布。可以证明极限分布若存在则必然为平衡分布。

设极限分布存在 limkPkπ0=π,那么有

Pπ=PlimkPkπ0=limkPk+1π0=π

这说明 Pπ=π 是一个平衡分布。

Markov Chain 基本定理

若 Markov Chain 不可约、非周期,那么

  1. 存在稳态分布 π
  2. 对于任意的 p0 都有 limkPkp0=π
  3. π 是唯一的
  4. πi=1E[Hi],其中 Hi 为随机变量,表示从 i 出发后第一次回到 i 的行走步数。E[Hi] 称为期望回归时间。

出现这个结论的原因在于,足够久之后任意点出发都将能走到任何点,因此两个不同的出发状态在足够久之后将“无法区分”

具体的证明看不懂,咕咕咕

Page Rank

Google 提出的给网页打分的算法。它假设

  1. 每个用户在页面 x 浏览完后,将等概率点击一个 x 中的超链接(即等概率走向一个邻居)
  2. 每个用户在页面 x 浏览完后,有一定概率直接跳转到任意一个页面 y

可以发现 2 本质上就是新建超级点 S,然后每个点连向 S,再从 S 连回所有点。

注意到 1 实际上就是在有向图上随机游走,转移矩阵恰好为度数导出的一个概率矩阵。2 保证了即使原图不是非周期、强连通时,用户这样的操作仍然可以使得随机游走存在一个稳态分布/极限分布(新图是强连通/非周期的,why?)。直觉也是符合的,每个人可能会突然停止浏览,然后从另一个完全不相关的页面重新开始冲浪。

并且这样的分数(概率分布)只与图的结构有关,与初始迭代向量没有关系。

posted @   jjppp  阅读(693)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示