摘要: 0. 强化学习的方法有:Q Learning(基于价值),Sarsa(基于价值),Policy Gradients(基于概率). 1.经验(观察observation,激励reward,行动action) 2.状态(state) 3.马尔科夫决策过程(MDP) 4.大致步骤 5. 计算累计奖励的期望 阅读全文
posted @ 2019-02-04 18:46 Jary霸 阅读(210) 评论(0) 推荐(0) 编辑