摘要: **发表时间:**2007(science) **文章要点:**这篇文章主要说checkers已经被解决了,得出的结论是如果两边都不犯错的话,这个游戏的最终结果是平局(Perfect play by both sides leads to a draw)。Solve其实有三种含义,ultraweak 阅读全文
posted @ 2021-11-20 23:53 initial_h 阅读(57) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 **文章要点:**这篇文章通过将整个RL过程放到GPU上,实现速度提升。主要做法就是将环境放到GPU上,减少了CPU和GPU之间的数据传输和通信时间,在GPU上实现整个训练的交互过程。然后一块GPU上就可以做并行训练,同时data存储用占位然后不断更新的方式进行,而不是开 阅读全文
posted @ 2021-11-20 23:49 initial_h 阅读(93) 评论(0) 推荐(0) 编辑