2021 年 7月 14 日随笔档案 - 风和雨滴

2021年7月14日

摘要： value-based，价值学习：DQN。构建一个神经网络，输入是state，有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差，我们使用TD算法，让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1 阅读全文

posted @ 2021-07-14 16:08 风和雨滴阅读(113) 评论(0) 推荐(0) 编辑

强化学习一些基本概念

摘要：强化学习的三个特征：闭环：动作决定环境，又依据环境选择动作。非监督。当前行动不仅影响短期奖励，也会影响长期奖励。强化学习的元素： policy：\(\pi (a|s)\)，policy决定了在特定state下将会选择的action。 reward signal：在选择动作时，环境提供数字信号阅读全文

posted @ 2021-07-14 16:07 风和雨滴阅读(750) 评论(0) 推荐(0) 编辑

风和雨滴

公告