2018 年 1月 28 日随笔档案 - &ATM

2018年1月28日

摘要： RL学习路线记录强化学习入门的相关算法及实现。 DP Policy Evaluation 通过以下步骤进行同步backup ，从而评估一个给定的 policy ： 1. 在第 $k+1$ 轮， 2. 对于所有状态 $s\in S$， 3. 更新 $v_{k+1}(s)=\sum_{a\in\ 阅读全文

posted @ 2018-01-28 18:38 &ATM 阅读(587) 评论(0) 推荐(0) 编辑

ATM

理性不说“我”，而是增强自我。查拉图斯特拉如是说。

公告

ATM

理性不说“我”，而是增强自我。 查拉图斯特拉如是说。

公告

理性不说“我”，而是增强自我。查拉图斯特拉如是说。