会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
SkyRainWind
空を見ろ。空を見続けろ。答えはそこにある。
首页
新随笔
管理
2024年3月4日
李宏毅《机器学习》总结 - Q-learning(待填)
摘要: 之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(\(\theta\) 或者 \(\pi\),可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。 这
阅读全文
posted @ 2024-03-04 22:06 SkyRainWind
阅读(30)
评论(0)
推荐(0)
编辑
公告