2019 年 11月 7 日随笔档案 - benda

2019年11月7日

摘要：本章假设环境是一个有限的MDP，且概率分布由$p(s',r|s,a)$给出 $$ \begin{aligned} v_ (S)&=\mathop{\max}_ {\pi} v_\pi(s)=\mathop{\max}_ {a} E_{\pi_ }[G_t|S_t=s,A_t=a]\\ &=\math 阅读全文

posted @ 2019-11-07 15:39 benda 阅读(375) 评论(0) 推荐(0) 编辑

benda

公告