2018年12月10日

机器学习工程师 - Udacity 强化学习 Part Two

摘要: 三、强化学习框架:解决方案1.状态值函数 2.贝尔曼方程 在这个网格世界示例中,一旦智能体选择一个动作,1)它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么)2)可以确切地预测奖励(而一般 MDP 则不同,奖励是从概率分布中随机抽取的)。在这个简单示例中,我 阅读全文

posted @ 2018-12-10 20:36 paulonetwo 阅读(319) 评论(0) 推荐(0) 编辑

导航