摘要: 一、背景介绍 传统的强化学习问题研究的是个体与环境交互,通过环境反馈的reward来指导个体学习策略,经典的算法有Q-Learning、DQN、DDPG等。 但现实场景中,环境中个体并不是孤立,例如有多个机器人合力推举一个重物,也或者有对抗的个体进行阻碍。总之多个个体都需要学会合作亦或者竞争。 多智 阅读全文
posted @ 2020-07-24 10:02 coolAlan 阅读(2239) 评论(0) 推荐(0) 编辑