回报函数学习的学徒学习综述

[year] 2008

[source] 智能系统学报

 

目前用于从示教学习中不愿回报函数的评述已非基于逆向增强学习的深造学习和MMP框架两种

Ng和Russell提出 IRL,通过最大化专家演示策略和其他策略的还原。Abbeel等将IRL进行拓展,称为学徒学习。

 

基于线性回报函数的学习

IRL

     max_{\tao, w}{\Tao}, with V_w (\tao_E) \ge V_w(\tao_i) + \tao

MMP

    凸函数最优化问题:

    min(R_w) ,  R(w)= 1/N(w^TF_i\mu_i – \min {w^TF_i\mu_i-l_i^T\mu}) + \lamda/2|w|^2

posted @ 2011-06-04 02:32  justin_s  阅读(437)  评论(0编辑  收藏  举报