摘要: 在某些契机下,制作了构想很久的个人 icon。 阅读全文
posted @ 2024-03-21 16:55 MoonOut 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。 阅读全文
posted @ 2024-03-21 16:46 MoonOut 阅读(202) 评论(0) 推荐(0) 编辑