摘要: 通过互相帮助促进多智能体强化学习中的合作 总结 该篇文章主要是提出了一个新的多智能体强化学习算法,目的是为了提高合作程度和总社会奖励。具体实现基于传统Actor-Critic模型,添加了一个预测动作模块让智能体基于预测其他智能体的动作来进行下一步动作,达到不损害自身利益的前提下有选择的互相帮助促进合 阅读全文
posted @ 2023-02-23 21:11 lanthanume 阅读(53) 评论(0) 推荐(0) 编辑