摘要: 1.利用动态序列或时间分量去最优化一个问题的程序 它是解决复杂问题的一种方法,通过分解子问题,解决子问题,组合子问题的解来实现 2.动态编程是解决包含以下属性问题的解决办法: 1)最优子结构 最优应用原则和最优解能被分解成子问题 2)覆盖子问题 子问题出现多次 子问题的解可以被缓存和重复利用 3)M 阅读全文
posted @ 2017-03-31 19:01 陈煜弘 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 1.MDPs介绍 1)马尔可夫决策过程正式描述了强化学习的环境,并且环境是可观测的 2)当前状态完全刻画了整个过程 3)几乎所有的强化学习问题都可以描述成为MDPs,比如 最优控制优先使用连续MDPs 部分可观测问题可以转换为MDPs “侠盗飞车”也是状态相关的MDPs 2.马尔可夫特性:即无记忆性 阅读全文
posted @ 2017-03-31 15:51 陈煜弘 阅读(386) 评论(0) 推荐(0) 编辑