2020 年 6月 30 日随笔档案 - ylxn

2020年6月30日

《Reinforcement Learning An Introduction》Richard S.Sutton && Andrew G.Barto

摘要：一、内容结构二、笔记第二章有限马尔可夫决策的三个基本方法：动态规划、蒙特卡罗方法和时序差分学习 K臂赌博机问题动作的选择贪心，或者 $\epsilon$概率随机选择策略增量式实现估计 $Q_{n+1}=Q_{n}+\frac{1}{n}[R_{n}-Q_{n}]$ 估计的更新方式：新估计值阅读全文

posted @ 2020-06-30 12:19 ylxn 阅读(398) 评论(0) 推荐(0) 编辑

《新标准日语初级 (上)》（在读）

摘要：一、五十音 1、平假名(Hiragana) あ（a）い（i）う（u）え（e）お（o）か (ka) き (ki) く (ku) け (ke) こ (ko) さ (sa) し (shi) す (su) せ (se) そ (so) た（ta）ち (chi) つ (tu) て (te) と ( 阅读全文

posted @ 2020-06-30 11:05 ylxn 阅读(210) 评论(0) 推荐(0) 编辑

ylxn

时光旅客～

公告