强化学习-SARSA(lambda)路径规划

1. 问题:612个点 [(x,y,z), 标号1,标号2]

    约束:整体

              水平

              垂直

2. State: {w_ij}

    Action: 校正点坐标

    Reward: { -1 ; 1000/distance(s,a); 10}

3. 

   在状态S基于$\epsilon$贪心策略选择动作A,

   转移到状态S’,给予奖励R

   在下一步暂时不选择动作A‘,而是更新价值表Q

   输入:S,A,迭代轮数T,步长$\alpha$,衰减因子$\gamma$, $\epsilon$

   输出:状态集合和动作集合对应的价值表Q

   E(s,a) = E(s,a) + 1  #当前步在(s,a), 表示离奖励或惩罚更近,增加该步的权重

  for s $\in$ S, a $\in$ A :

   更新:Q(s,a) += $\alpha ( R+ \gamma Q^{\'} (s^{\'}, a^{\'}) - Q(s,a) ) E(s,a) $

              E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走这步

4. 优化:空间余弦:校正点与A构成的向量,与AB构成的向量的空间余弦的正负作为评判飞行器的飞行方向

    转为曲线:输入A, P1, P2; 先求O,再求M

                      输出AP1, P1M弧,MP2

posted @ 2020-08-25 07:44  Nooni  阅读(928)  评论(0编辑  收藏  举报