2018 年 12月 5 日随笔档案 - 白婷

2018年12月5日

摘要： RL分类： value based, policy based, actor critic. 一、value based. Q-learning Q表示的是，在状态s下采取动作a能够获得的期望最大收益，R是立即获得的收益，而未来一期的收益则取决于下一阶段的动作。更新公式 Q(S,A) ← (1-α 阅读全文

posted @ 2018-12-05 11:09 白婷阅读(408) 评论(0) 推荐(0) 编辑

白婷的博客

知乎: https://www.zhihu.com/people/bai-bai-87-80-88

公告