Bellman update中Value Iteration收敛证明

Preface

感觉比赛完了后有段空隙期，没事抬头看看天空，低头翻翻paper.

Text

问题在这本textbook的654页上的(17.7)，是关于不动点的收敛问题。收敛性问题一向引人入胜，但刚看到这段的时候，还是没有从mess中理出来，还好后面Exercise 17.6有guidance。把(b)问做了之后，发现(a)并没有那么trivial，于是记一下。

(b)

从guidance的思路出发，剩下的用一个如下的式子进行证明:

\[\begin{equation} \mathop{max}_{a\in A(s)} \left|\sum_{s'}P(s'|s,a)\left( U_i(s')-U'_i(s') \right) \right| \leq \mathop{max}_{s'} \left| U_i(s')-U'_i(s') \right| \label{eq:17.6.b} \end{equation} \]

利用\(P\)的概率属性。
以下是关于(a)的证明。

(a)

这是这篇想要说的主要内容，复述一下要证明的问题:
for any functions \(f\) and \(g\)

\[\left|\mathop{max}_{a}f(a)-\mathop{max}_{a}g(a)\right|\leq\mathop{max}_{a}\left|f(a)-g(a)\right| \]

感觉离上次看见Terence Tao的字眼已经很久了，思维启动起来有些慢，一开始还想从连续性方面考虑下(-_-||)，后面发觉应该归为一般类的问题来考虑。
先做几个定义:

\[\begin{eqnarray} f_a & :=& \max f\nonumber\\ g_x &:=& \max g \nonumber\\ h(y) &:=& \left(f(y)-g(y)\right)^2-(f_a-g_x)^2\nonumber \end{eqnarray} \]

那么问题就转为证明：

\[\begin{equation} \exists y \in D, ~ h(y) \geq 0\label{eq:proof1} \end{equation} \]

如果只考虑是个一般类问题的话，能着手的只有两个已知点，还好后面发现能work:

\[\begin{eqnarray} h(a) &=& \left( 2f_a -g(a) -g_x\right)\left(g_x-g(a)\right)\label{eq:h_a}\\ h(x) &=& \left(2g_x-f(x)-f_a\right)\left(f_a-f(x)\right)\label{eq:h_x} \end{eqnarray} \]

然后讨论\(f_a,~g_x\)的大小关系，发现总会存在\(h(a)~OR~h(x)\ge 0\)的情况。

Note

这种更新方式很concise(也很nice)，容易使人联想到EM的策略，但EM却和不动点扯不上什么关系(真是遗憾)。
另外，(b)的严格证明还没有进行，上面只是一些思路。

posted @ 2017-12-11 11:13 rotxin 阅读(879) 评论(0) 收藏举报

刷新页面返回顶部

eRular

computer vision 与 machine learning

Bellman update中Value Iteration收敛证明

Preface

Text

(b)

(a)

Note

公告