LQR和iLQR、DDP

LQR直接通过backward和forward 过程给出最控制率和轨迹,而iLQR初始化一条轨迹,然后用LQR动态优化这条轨迹,直到找到最优解;

LQR是在环境线性化模型、cost function二次型情况下进行的,可能不能表示真是环境的情况;

于是,近似于数值优化中的思路,iLQR是将环境一阶线性化,cost function 二阶泰勒近似,然后利用LQR求极值,在新极值的条件下,
再次将环境一阶线性化,cost function 二阶泰勒近似,求极值,指导损失函数收敛;

DDP和iLQR的不同是将环境也进行二阶泰勒近似;

存在问题:
1、二阶近似在有些点可能不准确,求得新极值点cost function值不降反增,需要使用linear search 来进行约束;
2、hessian矩阵可能不正定,需要正则化。

posted @ 2020-11-11 11:19  ldfm  阅读(2409)  评论(0编辑  收藏  举报