摘要: [year] 2008 [source] 智能系统学报 目前用于从示教学习中不愿回报函数的评述已非基于逆向增强学习的深造学习和MMP框架两种 Ng和Russell提出 IRL,通过最大化专家演示策略和其他策略的还原。Abbeel等将IRL进行拓展,称为学徒学习。 基于线性回报函数的学习 IRL max_{\tao, w}{\Tao}, with V_w (\tao_E) \ge V_w(\tao_... 阅读全文
posted @ 2011-06-04 02:32 justin_s 阅读(437) 评论(0) 推荐(0) 编辑
摘要: v [source] ICML [year] 2000 设计人员只有粗线的概念而不能形成一个良好的回馈函数时 希望能通过一些最优情况找回代价函数 1. MDPs 在之前一篇博文中讲过了 Q函数 2.IRL in Finite State Spaces 归为优化 这个优化的形式,使最小中的最大,不由让人想到SVM(事实的确有这样一篇文章) 3. Linear Function Approximati... 阅读全文
posted @ 2011-06-04 02:17 justin_s 阅读(576) 评论(0) 推荐(0) 编辑