2019 年 2月 4 日随笔档案 - Jary霸

2019年2月4日

摘要： 0. 强化学习的方法有：Q Learning（基于价值）,Sarsa（基于价值）,Policy Gradients(基于概率). 1.经验（观察observation，激励reward，行动action） 2.状态（state） 3.马尔科夫决策过程（MDP） 4.大致步骤 5. 计算累计奖励的期望阅读全文

posted @ 2019-02-04 18:46 Jary霸阅读(210) 评论(0) 推荐(0) 编辑

aaa2222339

公告