摘要: 一、内容结构 二、笔记 第二章 有限马尔可夫决策的三个基本方法:动态规划、蒙特卡罗方法和时序差分学习 K臂赌博机问题 动作的选择贪心,或者 $\epsilon$概率随机选择策略 增量式实现估计 $Q_{n+1}=Q_{n}+\frac{1}{n}[R_{n}-Q_{n}]$ 估计的更新方式:新估计值 阅读全文
posted @ 2020-06-30 12:19 ylxn 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 一、五十音 1、平假名(Hiragana) あ(a) い(i) う(u) え(e) お(o) か (ka) き (ki) く (ku) け (ke) こ (ko) さ (sa) し (shi) す (su) せ (se) そ (so) た(ta) ち (chi) つ (tu) て (te) と ( 阅读全文
posted @ 2020-06-30 11:05 ylxn 阅读(206) 评论(0) 推荐(0) 编辑