摘要: 本章假设环境是一个有限的MDP,且概率分布由$p(s',r|s,a)$给出 $$ \begin{aligned} v_ (S)&=\mathop{\max}_ {\pi} v_\pi(s)=\mathop{\max}_ {a} E_{\pi_ }[G_t|S_t=s,A_t=a]\\ &=\math 阅读全文
posted @ 2019-11-07 15:39 benda 阅读(375) 评论(0) 推荐(0) 编辑