MADQN：多代理合作强化学习

处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置及其活动的观察。

在训练对抗的多代理模型时，目标一般是让所有竞争的代理通过达到一种称为纳什均衡的博弈状态来发现对抗对手的最佳策略。所以对抗性多代理强化学习可以适应和建模现实世界的问题，如公司间或国家间的经济竞争。

而对于协作式多代理学习，其目标是让多个代理朝着某个目标进行协作。这可能涉及到代理之间的“沟通”，例如学习如何在实现长期目标的协作中专注于完成特定的子任务。协作式多代理强化学习可以应用于现实环境，例如在仓库操作中操作一队机器人，甚至是一辆自动驾驶出租车。