WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU
发表时间:2021
文章要点:这篇文章通过将整个RL过程放到GPU上,实现速度提升。主要做法就是将环境放到GPU上,减少了CPU和GPU之间的数据传输和通信时间,在GPU上实现整个训练的交互过程。然后一块GPU上就可以做并行训练,同时data存储用占位然后不断更新的方式进行,而不是开新地址存储的形式。整个代码用PyCUDA和PyTorch实现。
总结:很有意义的工作,对RL是个很大的提升方向,就是不知道具体实现起来工程量如何。
疑问:其实看不懂环境具体是怎么上GPU的,是不是整个environment都要重新实现一遍才能搬到GPU上去啊,如果是的话,那这个工作量有点巨大啊。
文章说连sampling actions都比PyTorch快,这个咋实现的?
During all the subsequent step and reset calls, the data arrays are stored exclusively on the GPU and modified in-place。这里相当于不copy,直接先占位然后改值?