摘要: value-based,价值学习:DQN。构建一个神经网络,输入是state,有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差,我们使用TD算法,让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1 阅读全文
posted @ 2021-07-14 16:08 风和雨滴 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 强化学习的三个特征: 闭环:动作决定环境,又依据环境选择动作。 非监督。 当前行动不仅影响短期奖励,也会影响长期奖励。 强化学习的元素: policy:\(\pi (a|s)\),policy决定了在特定state下将会选择的action。 reward signal:在选择动作时,环境提供数字信号 阅读全文
posted @ 2021-07-14 16:07 风和雨滴 阅读(750) 评论(0) 推荐(0) 编辑