ADP算法中AC网络的更新方式

以离散时间系统为例,对自适应动态规划(Adaptive Dynamic Programming,ADP)中Action Network和Critic Network两个网络的更新方式进行说明。

一、系统定义


1.状态方程 state equation

${X_{k + 1}} = {F_k}({X_k},{U_k})$(1)

其中数学公式: $ U $是控制指令,数学公式: $ F $是关于状态和控制的动力方程。

2.代价函数 cost function

$J = \sum \limits_{k = 1}^{N - 1} {\psi _k}\left( {{X_k},{U_k}} \right)$ (2)

其中数学公式: $ \psi $为效用函数。对公式2进重写让其从时间k开始

$ {J_k} = \sum \limits_{\widetilde k = k}^{N - 1} {\psi_{\widetilde k}}\left({{X_{\widetilde k}},{U_{\widetilde k}}} \right) $ (3)

可以对数学公式: $ {J_k} $进行一个拆分

$ {J_k} = {\psi_k} + {J_{k + 1}} $(4)

3.定义costate vector

定义在时间k的costate vector

$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} $(5)

4.最优的必要条件

$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = 0 $(6)

计算

$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {U_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $
$ = \left({\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda _{k + 1}} $(7)

结合公式(6)和(7)可以得出

$ \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda_{k + 1}} = 0 $(8)

结合公式(4)和(5)可以对costate vector进行重写

$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $(9)

所以可以得到数学公式: $ \lambda_k $和数学公式: $ \lambda_{k+1} $之间的关系式

$ {\lambda_k} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}{\lambda_{k + 1}} $(10)

公式(1)(8)和(10)必须同时求解,并配合适当的边界条件以求得最优控制的综合。

二、网络的训练


基于AC的ADP算法拥有两个网络分别是Action网络和Critic网络,Action网络主要的作用是根据状态信息生成控制指令,Critic网络的作用是生成costate vector用于调整两个网络的权重。

1.Action 网络的更新流程

第一步:输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $;
第二步:系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式(1)得到数学公式: $ X_{k+1} $
第三步:将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步:使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $,根据公式(8)计算目标的数学公式: $ U_k^t $
第五步:按照目标控制数学公式: $ U_k^t $来调整Action网络的权重

2.Critic网络的更新流程

第一步:输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $;
第二步:系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式(1)得到数学公式: $ X_{k+1} $
第三步:将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步:使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $,根据公式(10)计算目标的数学公式: $ \lambda_k^t $
第五步:按照目标costate数学公式: $ \lambda_k^t $来调整Critic网络的权重

参考:A single network adaptive critic (SNAC) architecture for optimal control synthesis for a class of nonlinear systems

posted @ 2021-08-10 16:54  吃瓜的哲学  阅读(1410)  评论(0编辑  收藏  举报