摘要: RL分类: value based, policy based, actor critic. 一、value based. Q-learning Q表示的是,在状态s下采取动作a能够获得的期望最大收益,R是立即获得的收益,而未来一期的收益则取决于下一阶段的动作。 更新公式 Q(S,A) ← (1-α 阅读全文
posted @ 2018-12-05 11:09 白婷 阅读(408) 评论(0) 推荐(0) 编辑