读论文——《基于知识辅助深度强化学习的巡飞弹组动态突防决策》

地址:

http://www.co-journal.com/CN/rich_html/10.12382/bgxb.2023.0827

image



image


利用领域知识、专家知识等先验知识对巡飞弹避障模型进行探索引导,能够使算法快速学会基础规则与策略,降低算法在无效状态空间中的探索时间。模仿学习是其中最为行之有效的引导技巧之一,通过专家样本直接模仿专家策略,主要包括以下两种构造形式:1)行为克隆方法,利用采集历史经验采集或先验模型求解得到的专家轨迹对策略模型进行预训练;2)逆向强化学习,利用专家轨线反向优化回报函数,回报函数的构造形式既可以由人指定,也可以利用深度神经网络代替[24]。

本文采用行为克隆方法,引入巡飞弹避障规则知识(此处以文献[9]提出的VAAPF法为例)生成大量专家轨线,并与仿真环境交互,生成每一步实时回报。将以上历史经验轨线拆分构造成标准SAC算法经验组的形式,存入经验池、形成优质经验。这种方法能够减少算法在训练初期的大量无效探索,快速学习到有效的机动策略。

本文算法建立在知识静态不变的假设之上。当知识更新迭代时,可以利用迁移学习、增量学习等方法,在已训练好的模型基础上进行参数微调,学习新任务差异。另一方面模型学会的新策略也能为知识更新提供参考。建立知识差异性评价,构建闭环动态训练机制,是值得后续研究的开放性问题。图7为LMG突防决策算法伪代码。


image



PS:

论文中并没有给出太多细节,这个论文感觉是生搬硬套的感觉,就是要把DRL往上套,啥具体描述都没有,也说不好这个东西到底是否有用。



posted on 2024-12-06 12:14  Angry_Panda  阅读(6)  评论(0编辑  收藏  举报

导航