2014 年 1月 20 日随笔档案 - Kintoki

2014年1月20日

摘要：上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢？基本的解法有三种：动态规划法(dynamic program 阅读全文

posted @ 2014-01-20 10:26 Kintoki 阅读(42255) 评论(10) 推荐(9) 编辑

Loading

Kintoki

关注机器学习，数据挖掘，人工智能

公告