Algorithms for Inverse Reinforcement Learning

v [source] ICML

[year] 2000

设计人员只有粗线的概念而不能形成一个良好的回馈函数时

希望能通过一些最优情况找回代价函数

 

1. MDPs 在之前一篇博文中讲过了

Q函数

2.IRL in Finite State Spaces

归为优化

这个优化的形式,使最小中的最大,不由让人想到SVM(事实的确有这样一篇文章)

3. Linear Function Approximation in Large State Spaces

R(s) =\Sum_{i=1}^{d} \alpha_i \phi_i(s)

4. IRL from Sampled Trajectories

此时已经有若干最优轨迹

 

结论:有搞头!

posted @ 2011-06-04 02:17  justin_s  阅读(579)  评论(0编辑  收藏  举报