2024 年 3月 21 日随笔档案 - MoonOut

摘要：在某些契机下，制作了构想很久的个人 icon。阅读全文

posted @ 2024-03-21 16:55 MoonOut 阅读(25) 评论(0) 推荐(0) 编辑

摘要：如果想最大化期望下的 R(τ)，那么策略梯度 = R(τ) · Σ ▽log π(a|s) ，即 discounted return × Σ 梯度 log [选取该 action 的概率] 。阅读全文

posted @ 2024-03-21 16:46 MoonOut 阅读(202) 评论(0) 推荐(0) 编辑

月出兮彩云归 🌙