WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU

发表时间：2021
文章要点：这篇文章通过将整个RL过程放到GPU上，实现速度提升。主要做法就是将环境放到GPU上，减少了CPU和GPU之间的数据传输和通信时间，在GPU上实现整个训练的交互过程。然后一块GPU上就可以做并行训练，同时data存储用占位然后不断更新的方式进行，而不是开新地址存储的形式。整个代码用PyCUDA和PyTorch实现。
总结：很有意义的工作，对RL是个很大的提升方向，就是不知道具体实现起来工程量如何。
疑问：其实看不懂环境具体是怎么上GPU的，是不是整个environment都要重新实现一遍才能搬到GPU上去啊，如果是的话，那这个工作量有点巨大啊。
文章说连sampling actions都比PyTorch快，这个咋实现的？
During all the subsequent step and reset calls, the data arrays are stored exclusively on the GPU and modified in-place。这里相当于不copy,直接先占位然后改值？

posted @ 2021-11-20 23:49 initial_h 阅读(93) 评论(0) 编辑收藏举报

initial_h

https://github.com/initial-h

WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU

公告