LQR和iLQR、DDP
LQR直接通过backward和forward 过程给出最控制率和轨迹,而iLQR初始化一条轨迹,然后用LQR动态优化这条轨迹,直到找到最优解;
LQR是在环境线性化模型、cost function二次型情况下进行的,可能不能表示真是环境的情况;
于是,近似于数值优化中的思路,iLQR是将环境一阶线性化,cost function 二阶泰勒近似,然后利用LQR求极值,在新极值的条件下,
再次将环境一阶线性化,cost function 二阶泰勒近似,求极值,指导损失函数收敛;
DDP和iLQR的不同是将环境也进行二阶泰勒近似;
存在问题:
1、二阶近似在有些点可能不准确,求得新极值点cost function值不降反增,需要使用linear search 来进行约束;
2、hessian矩阵可能不正定,需要正则化。