应用随机过程 | 期末知识点总结


这篇博客是「应用随机过程」的知识点总结。

本站相关博客:

特别鸣谢:



1 马尔可夫链的计算题

题型:

  • 不变分布:πP=π,求 π。
  • P(X1=3,X2=4,X3=2)
    • 原式 =iSP(X0=i,Xi=3,)=iSμ(i)pi3(p34p42)
  • ① 求 limnP[Xi],i={1,2,3,4} 。② 求 limn1nj=0n1f(Xj)
    • 先求 不变分布 πP=π
    • 然后,不难验证 X 不可约非周期(p11(1)>0,p11(2)>0),
    • 所以,① 极限分布即为不变分布,② 原式 iSf(i)limn1nj=0n1I{Xj=i},所以 =iSf(i)πi

2 常返的马尔可夫链

一些辅助定义:

  • 首达时:从 i 出发首次到达 j 的时间,定义为 Tij=minn1{n:Xn=j,X0=i}。若到达不了 j,则是无穷。
  • 首达概率:从 i 出发经 n 步首次到达 j 的概率,定义为 fij(n)=P(Tij=n|X0=i) =P(Xn=j,Xkj,1kn1|X0=i)
  • 有限步首达概率:从 i 出发经有限步首次到达 j 的概率,定义为 fij=n=1fij(n)
  • 平均回转时间:从 i 出发再回到 i 的平均时间,μi=ETii=n=1nfii(n)

常返:

  • 常返:从状态 i 出发,最终返回状态 i 的概率是 1,但期望返回时间 E(Tii) 可以为正无穷(零常返)。
  • 正常返:从状态 i 出发,最终返回状态 i 的概率是 1,且期望返回时间 E(Tii) 有限。
  • 常返 / 正常返条件:
    • 常返状态:
      • fii=n=1fii(n)=1 ,即总能回到状态 i 。
      • Gii=n=0pii(n)=1/(1fii)= ,发散 / 不收敛。
    • 正常返状态:
      • νi=1/μi=1/ETii>0 ,即 ETii< ,返回时间的期望是有限的。
      • i 已经是常返状态,且 limnpii(n)=1/μi=1/ETii>0 ,即返回时间的期望是有限的。
      • limnpii(n)=1/ETii :因为在长期内,状态 i 被访问的频率与其期望返回时间成反比。
    • 零常返状态:
      • νi=1/μi=1/ETii=0 ,即 ETii= ,返回时间的期望是无穷。
      • i 已经是常返状态,且 limnpii(n)=0 ,即返回时间的期望是无穷。

题型:

  • 0 →1 → … → n → 0 的常返,使用 f00=f00(n)=1,写出每条最终返回 0 的轨迹 + 马尔科夫链显然不可约。
  • 随机游走的常返【背过】。

3 连续时间参数的马尔可夫链

必要的定义:

  • Q 矩阵:
    • qi=qii,表示转移出状态 i 的速率。qii 是小于等于 0 的数,因为如果 t 时刻的 X = i,t + Δt 时刻的 X 肯定会往外转移(小于等于 0),而非继续往 X 转移(大于 0)。所以,Q 矩阵的对角线元素应该都是负的。
    • Q 矩阵每一行加起来 = 0。离散马尔可夫的 P 矩阵每一行加起来 = 1。
    • P[inft, XtX0|X0=i]=eqit ,这是转移走的时间的分布;保留在 X = i 的期望时间长度是 1/qi ,保留的期望概率是指数分布 1eqit,如果 X ≠ i 了,那么转移去状态 j 的概率是 qij/qi
  • K 向前方程:P(t)=P(t)Q(P 在前面),向后方程:P(t)=QP(t)(P 在后面)。

题型:

  • 证明 K 向前方程:

  • limh0P(t+h)P(t)h=limh0P(t)[P(h)I]h=P(t)limh0P(h)Ih=P(t)Q

  • 证明 K 向后方程:

  • limh0P(t+h)P(t)h=limh0[P(h)I]P(t)h=limh0P(h)IhP(t)=QP(t)

  • 证明(好像是任意)连续时间参数的马尔科夫链 一致连续:【背过】

    • 需要证明的结论:Pij(t+h)Pij(t)1Pii(h), Pij(t+h)Pij(t)[1Pii(h)]

    • 证 ≤:

    • Pij(t+h)Pij(t)=kSPik(h)Pkj(t)Pij(t)=kiPik(h)Pkj(t)Pij(t)[1Pii(h)]

    • 此时,第一项 ≥ 0,第二项也 ≥ 0。放掉第二项,式子会变大;放掉第一项,式子会变小。

    • 放掉第二项:原式 kiPik(h)Pkj(t)kiPik(h)=1Pii(h),得证。

    • 证 ≥:

    • 放掉第一项:原式 Pij(t)[1Pii(h)]1Pii(h),得证。

  • 定义 τi=inf{t:t>,XtX0} ,即在状态 X0 停留的时间。有 P[τ1>t|X0=0]=eλtP[τ1>t|X0=1]=eμt (状态空间 S={0,1} )。写出 K 向前方程,并求解得到表达式。

    • 立得 q0=λ,q1=μ 。写出 K 向前方程:

    • [p00(t)p01(t)p10(t)p11(t)]=[p00(t)p01(t)p10(t)p11(t)][λλμμ]

    • 然后展开,进行微分方程求解。进行替换,p01(t)=1p00(t)p10(t)=1p11(t)。最后求解的形式为:

    • p00(t)=λλ+μe(λ+μ)t+μλ+μp11(t)=μλ+μe(λ+μ)t+λλ+μ

4 泊松过程

泊松过程:

  • 泊松过程是一个增量过程,写作 {Nt:t0} ,其中 P(Ns+tNs=k)=P(Nt=k)=(λt)kk!eλt ;即, P(λt)

  • 定义 Sn=inf{t:Ntn} 为第 n 个事件发生的时刻。

  • 得到 Sn 的分布函数:P(Snt)=P(Ntn)=1P(Ntn1)=1k=0n1(λt)kk!eλt

  • Sn 的概率密度:fsn(t)=λ(λt)n1(n1)!eλtI(t0) 。(直接求导,两两相消最后只剩一项)

  • 相邻事件的时间间隔 Xn=SnSn1 ,是 1eλx 的 λ 的指数分布。(泊松过程充要条件)

题型:

  • Sn 的分布函数、概率密度【背过】。
  • (S1,S2) 的联合概率密度(用 [h,h] 的正方形把 (S1,S2) 圈起来计算概率),并证明 S1,S2S1 独立。【背过】

5 鞅

必要的知识:

  • 鞅的定义:① E|Xn|< 绝对值期望有限,② E(Xn+1|Y0,,Yn)=Xn 鞅性。

  • Xn 是鞅,T 是停时。)

  • 停时定理 1:满足 ① P(T<)=1 停时有限,② E(supn0|XTn|)< 即 X_{停时 和 n 的最小值} 的上界 有限,则 EXT=EX0 。【貌似常用】

    • 停时定理 2:满足 ① ET< 停时的期望有限,② 存在 b< 使得 E(|Xn+1Xn||X0,,Xn)b ,则 EXT=EX0

    • 停时定理 3:满足 ① P(T<)=1 停时有限,② 是鞅的随机过程 E|XT|< 绝对值有限,③ limnE|Xn1{T>n}|=0 即 n → 无穷的那部分 |Xn| 求和趋于 0,则 EXT=EX0

  • 上穿不等式:

    • (在需要背过答案的题 鞅收敛定理 P[limnXn=X]=1 出现,背过即可)

    • V(n)(a,b){X0,,Xn} 上穿 (a,b) 的次数,上穿的意思就是从 a 下面钻到了 b 上面。

    • Xn 关于 Yn 是下鞅(鞅是下鞅),有

    • E[V(n)(a,b)]E(Xna)+E(X0a)+baEXn++|a|ba

    • 其中 a+=max(a,0),就是 ReLU()

题型:

  • 用定义证明鞅。
  • 鞅收敛定理 P[limnXn=X]=1 :使用上穿不等式。【背过】
  • 对随机游走,证明往左右走的概率 p = 1/2 时,走到 a 或 b 的停时的 ET=|a|b 。【背过好了】

6 布朗运动的鞅

布朗运动:

  • 连续时间,连续状态空间。
  • XtN(0,t),满足正态分布。有增量独立性。
  • 正态分布的概率密度: p(x)=12πσ2exp(x22σ2)
  • 期望和协方差:EBt=0, E[BsBt]=st
  • 1λBλt, tB(1t) 都是布朗运动。证明好像是:正态过程 + 轨道连续 + 期望和协方差。

题型:

  • 布朗运动的联合概率密度:使用增量独立性。

    • 布朗运动相加:直接说满足正态分布,求期望(0)方差(使用协方差)。
    • 联合概率密度:先写各个独立增量的联合分布,然后变量代换。我不会搞矩阵那一套。
  • 证明布朗运动的鞅(是连续鞅,而非离散鞅):

    • Bt 显然,使用增量独立性。
    • Bt2t ,按鞅的定义写开即可。要改成 E(Xtn+1|Bt1,,Btn),下标是连续时间。
    • exp(λBtλ2t/2)
      • 验证绝对值有限:使用正态分布的概率密度,积分 + 写开,发现 = 1。
      • 验证鞅性:写开,需要用到 E[exp(λBt)]=exp(λ2t/2) 的结论。【背过】(推导方法是积分 + 写开)
  • 布朗运动的停时:

    • 学习例题,背诵。普通布朗运动、带漂移的布朗运动。【背过】
    • 带漂移的布朗运动 X(t)=B(t)+μt 的常用鞅:V(t)=exp(2μX(t))。【背过】
  • 均方收敛:

  • 给定 t>0, 0=t0<t1<<tn=t,记 λ=max{ti+1ti},证明

  • limλ0|i=0n1(Bti+1Bti)2t|2=0

  • 证明:背诵九一居士,直接放缩即可。

    • 首先变量代换,Xi=BtiBti1 。有 E(Xi)2=titi1, E(Xi)4=3(titi1)2
    • 然后写开,会有一个 i=1n3(titi1)2 和一个 i<j(titi1)(tjtj1) ,把前者(系数为 3 的)提出一个来,跟后面凑平方,剩下两个拿 λ 放掉,放成 2λt0

7 伊藤公式

貌似讲伊藤公式很清楚的视频:https://www.bilibili.com/video/BV1qZ4y1V7oR/

伊藤公式:

Y(t)=f(t,x(t))=f(t,Bt)dY=ftdt+fxdBt+122fx2dt

题型 1:证明题,直接构造 f(t,Bt)

题型 2:求 Xt=0tf(s)Bsds 的概率分布。

  • 首先,Xt 是正态分布,因此计算 μ 和 σ²。

  • EXt=0,因为 Fubini 定理(?)直接写出积分形式,然后 = 0 即可。

  • EXt2

  • EXt2=EXtXt=0t0tf(u)f(v)EBuBvdudv=0t0tf(u)f(v)(uv)dudv=0tf(u)du[0uvf(v)dv+utuf(v)dv]

  • EBuBv=uv,是因为独立增量。我们假设 u<v,这样 EBuBv=E[Bu2+Bu(BvBu)],第一项根据定义是 u,第二项根据独立增量性质,BuBvBu 是相互独立的,它们的期望都 = 0,因此第二项 = 0。



本文作者:MoonOut

本文链接:https://www.cnblogs.com/moonout/p/18701951

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   MoonOut  阅读(46)  评论(0编辑  收藏  举报
历史上的今天:
2024-02-07 offline 2 online | Cal-QL:校准保守 offline 训出的 Q value,让它与真实 reward 尺度相当
2024-02-07 offline 2 online | 重要性采样,把 offline + online 数据化为 on-policy samples
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.