2020 年 7月 24 日随笔档案 - coolAlan

2020年7月24日

摘要：一、背景介绍传统的强化学习问题研究的是个体与环境交互，通过环境反馈的reward来指导个体学习策略，经典的算法有Q-Learning、DQN、DDPG等。但现实场景中，环境中个体并不是孤立，例如有多个机器人合力推举一个重物，也或者有对抗的个体进行阻碍。总之多个个体都需要学会合作亦或者竞争。多智阅读全文

posted @ 2020-07-24 10:02 coolAlan 阅读(2239) 评论(0) 推荐(0) 编辑

coolAlan

非淡泊无以明志，非宁静无以致远

公告