Algorithms for Inverse Reinforcement Learning
v [source] ICML
[year] 2000
设计人员只有粗线的概念而不能形成一个良好的回馈函数时
希望能通过一些最优情况找回代价函数
1. MDPs 在之前一篇博文中讲过了
Q函数
2.IRL in Finite State Spaces
归为优化
这个优化的形式,使最小中的最大,不由让人想到SVM(事实的确有这样一篇文章)
3. Linear Function Approximation in Large State Spaces
R(s) =\Sum_{i=1}^{d} \alpha_i \phi_i(s)
4. IRL from Sampled Trajectories
此时已经有若干最优轨迹
结论:有搞头!