2021 年 12月 22 日随笔档案 - xxxuanei

2021年12月22日

摘要：什么是PPO 是一种off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates. Importance Sampling 可以在q的distribution里sample data，不用直接从p里sam 阅读全文

posted @ 2021-12-22 20:05 xxxuanei 阅读(485) 评论(0) 推荐(0) 编辑

初识Actor-Critic

摘要：什么是Actor-Critic 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。现在看看Actor-Critic的论文继续了解一下。 Critic-Only and Actor-Only 这篇文章之前的算法是Critic-Only, or Actor-Only。 A 阅读全文

posted @ 2021-12-22 20:04 xxxuanei 阅读(216) 评论(0) 推荐(0) 编辑

XXXUANEI

愿全世界无产者和被压迫民族联合起来

公告