2022 年 7月 12 日随笔档案 - climerecho

摘要：

引入 baseline ，可以通过降低随机梯度造成的方差来加速强化学习的收敛，介绍了两种算法Reinforce with baseline 以及 A2C。阅读全文

posted @ 2022-07-12 11:29 climerecho 阅读(959) 评论(0) 推荐(0) 编辑

Clivia Du