2018 年 12月 10 日随笔档案 - paulonetwo

2018年12月10日

机器学习工程师 - Udacity 强化学习 Part Two

摘要：三、强化学习框架：解决方案1.状态值函数 2.贝尔曼方程在这个网格世界示例中，一旦智能体选择一个动作，1)它始终沿着所选方向移动（而一般 MDP 则不同，智能体并非始终能够完全控制下个状态将是什么）2)可以确切地预测奖励（而一般 MDP 则不同，奖励是从概率分布中随机抽取的）。在这个简单示例中，我阅读全文

posted @ 2018-12-10 20:36 paulonetwo 阅读(328) 评论(0) 推荐(0) 编辑

paulonetwo

机器学习工程师 - Udacity 强化学习 Part Two

导航

公告