摘要: 之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(\(\theta\) 或者 \(\pi\),可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。 这 阅读全文
posted @ 2024-03-04 22:06 SkyRainWind 阅读(9) 评论(0) 推荐(0) 编辑