2016 年 7月 25 日随笔档案 - PhHuangXiao

2016年7月25日

摘要： Dynamic Programming 状态值函数动作值函数策略迭代过程值迭代过程 1. 状态值函数 $$ \begin{aligned} V^\pi(s) &=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s]\\ &=E_{ 阅读全文

posted @ 2016-07-25 21:18 PhHuangXiao 阅读(1010) 评论(0) 推荐(0) 编辑

概率图模型——变分法

摘要：概率图模型——变分法参考书籍：张连文等著. 《贝叶斯网络引论》变分法的基本思想是通过变分转换，将概率推理问题转化为一个变分优化问题来处理。具体描述如下：设$N$为一个贝叶斯网络，表示联合分布$P(x)$。设观测到的证据为$E=e$，所有非证据变量的集合为$Z={Z_1,Z_2,...,Z_n 阅读全文

posted @ 2016-07-25 21:14 PhHuangXiao 阅读(1389) 评论(0) 推荐(0) 编辑

Huang Xiao

公告