摘要: 算法思想 Q-Learning是强化学习算法中value-based的算法,Q即为Q(s,a),就是在某一个时刻的state状态下,采取动作a能够获得收益的期望,环境会根据agent的动作反馈相应的reward奖赏, 所以算法的主要思想就是将state和action构建成一张Q_table表来存储Q 阅读全文
posted @ 2021-09-30 19:49 一丨 阅读(443) 评论(0) 推荐(0) 编辑