强化学习-SARSA(lambda)路径规划

1. 问题：612个点 [(x,y,z), 标号1，标号2]

约束：整体

水平

垂直

2. State: {w_ij}

Action: 校正点坐标

Reward: { -1 ; 1000/distance(s,a); 10}

在状态S基于$\epsilon$贪心策略选择动作A，

转移到状态S’，给予奖励R

在下一步暂时不选择动作A‘，而是更新价值表Q

输入：S,A,迭代轮数T，步长$\alpha$，衰减因子$\gamma$, $\epsilon$

输出：状态集合和动作集合对应的价值表Q

E(s,a) = E(s,a) + 1 #当前步在(s,a), 表示离奖励或惩罚更近，增加该步的权重

for s $\in$ S, a $\in$ A :

更新：Q(s,a) += $\alpha ( R+ \gamma Q^{\'} (s^{\'}, a^{\'}) - Q(s,a) ) E(s,a) $

E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走这步

4. 优化：空间余弦：校正点与A构成的向量，与AB构成的向量的空间余弦的正负作为评判飞行器的飞行方向

转为曲线：输入A, P1, P2; 先求O，再求M

输出AP1, P1M弧，MP2

posted @ 2020-08-25 07:44 Nooni 阅读(993) 评论(0) 收藏举报

刷新页面返回顶部

Nooni