摘要: Dynamic Programming 状态值函数 动作值函数 策略迭代过程 值迭代过程 1. 状态值函数 $$ \begin{aligned} V^\pi(s) &=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s]\\ &=E_{ 阅读全文
posted @ 2016-07-25 21:18 PhHuangXiao 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: 概率图模型——变分法 参考书籍:张连文 等著. 《贝叶斯网络引论》 变分法的基本思想是通过变分转换,将概率推理问题转化为一个变分优化问题来处理。具体描述如下: 设$N$为一个贝叶斯网络,表示联合分布$P(x)$。设观测到的证据为$E=e$,所有非证据变量的集合为$Z={Z_1,Z_2,...,Z_n 阅读全文
posted @ 2016-07-25 21:14 PhHuangXiao 阅读(1389) 评论(0) 推荐(0) 编辑