Learning Agent Communication under Limited Bandwidth by Message Pruning 记录

文章介绍了一种提高多智能体之间通信效率的方法（得到最适合的通信带宽）。

首先介绍了多智能体强化学习模型ACML：

算法跟MADDPG是有点类似的，增加了信息生成网络和信息协调网络，actor产生决策的时候还要考虑协调后的信息，变相得到了全局的信息。

但是这种信息可能是冗余的，下面考虑优化：

在生成网络和协调网络之间，增加了一个门控，用于过滤信息。这个门控是硬门控（只有0和1），通过随机变量p控制。随机变量p通过θop得到。通过p每一个单元的大小控制门控每一个单元的0或1。对于每一个观察(o)，怎么找到最合适的门控呢？门控g是不可导的，但是p可以通过强化学习的辅助变得可导，从而间接控制g。

这里首先定义了一个和优势函数有异曲同工之妙的函数ΔQ(oi)，相当于通过控制变量法判断智能体i，得到额外信息和不得到额外信息之前的Q值差，如果差值大于一个阈值T，说明这个额外信息是有用的，就提高它的p值。反之毅然。：

Y(oi)这样的定义把问题变成了一个类似分类的问题。要求p和I(ΔQ(oi))>T尽量接近。

训练的时候，需要得到可靠的估计。首先训练无门控的ACML（g=1)，之后强行设置门控g=1和g=0得到式8中的参数，就可以开始训练了。

T有两种方式，一种是静态的，一种是动态的。

静态更新：选择最近的k次观察，经过排序，选择一个想要保留的百分比系数，在百分比位置的边界得到想要的系数T。

动态更新：一种渐进式的更新方式，

posted @ 2022-09-07 22:50 维和战艇机阅读(75) 评论(0) 收藏举报

刷新页面返回顶部

维和战艇机

Learning Agent Communication under Limited Bandwidth by Message Pruning 记录

公告