计算方法4 图的随机游走
Markov Chain 的本质是概率状态机,这么想就很简单了
为了偷懒只讨论有限的情形
前置
离散概率分布可以表示为 上的向量 ,满足 且
对于用向量表示的概率分布,可以定义两个分布的“距离”:
这里 表示 total variation distance。这样就可以定义一列分布的收敛性和极限了。
Markov Chain
对于一系列数量有限的状态,给出每个状态转移到下一个状态的概率 ,这就构成了一个状态机。把状态看成点,转移概率看成边权,就得到了一个有向带权图,并且这个图满足一些特殊的性质。
考虑怎么算出现在状态 的概率,这本质上是一个一阶递推,写出来就是
这里 表示走了恰好 步后,处在每个状态上的概率分布
定义
周期
对于状态 ,其周期定义为 ,记为 。称 Markov Chain 非周期当且仅当所有状态的周期都是
直观理解:从 出发后走恰好 步回到 ,所有这样的圈的长度的 gcd 即为周期。
这么定义的用处可以在后面看到。
不可约
有限图不可约当且仅当其为强连通图。此处强连通的定义为:任取 ,存在两条有向路径 使得 。不要求 点不相交
性质
若 Markov Chain 不可约、非周期,则存在常数 使得当 时, 对任意 成立
直观理解:走了足够多步后不存在走不到的状态。
只需要证明存在常数 ,使得任意长度至少为 的路径,都能在任意两点间找到。
- 不可约,则 存在有向路径 。
- 非周期,则存在最大的无法由两个圈线性组合出的正整数 (NOIP2017,哈哈),记为 ,则此后的任意长度都可以由两个互质的圈线性组合出来。
- 只需要取 ,则此后可以在任意节点对之间游走。
稳态分布
考虑给定初始分布 ,则极限 称为 Markov Chain 的极限分布。
若分布 满足 ,则称 为平衡分布。可以证明极限分布若存在则必然为平衡分布。
设极限分布存在 ,那么有
这说明 是一个平衡分布。
Markov Chain 基本定理
若 Markov Chain 不可约、非周期,那么
- 存在稳态分布
- 对于任意的 都有
- 是唯一的
- ,其中 为随机变量,表示从 出发后第一次回到 的行走步数。 称为期望回归时间。
出现这个结论的原因在于,足够久之后任意点出发都将能走到任何点,因此两个不同的出发状态在足够久之后将“无法区分”
具体的证明看不懂,咕咕咕
Page Rank
Google 提出的给网页打分的算法。它假设
- 每个用户在页面 浏览完后,将等概率点击一个 中的超链接(即等概率走向一个邻居)
- 每个用户在页面 浏览完后,有一定概率直接跳转到任意一个页面
可以发现 2 本质上就是新建超级点 ,然后每个点连向 ,再从 连回所有点。
注意到 1 实际上就是在有向图上随机游走,转移矩阵恰好为度数导出的一个概率矩阵。2 保证了即使原图不是非周期、强连通时,用户这样的操作仍然可以使得随机游走存在一个稳态分布/极限分布(新图是强连通/非周期的,why?)。直觉也是符合的,每个人可能会突然停止浏览,然后从另一个完全不相关的页面重新开始冲浪。
并且这样的分数(概率分布)只与图的结构有关,与初始迭代向量没有关系。
本文来自博客园,作者:jjppp。本博客所有文章除特别声明外,均采用CC BY-SA 4.0 协议
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~