会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
这是一篇博客
管理
2025年1月10日
TD(lambda) 算法
摘要: \(TD(\lambda)\)是统一蒙特卡洛算法(MC)和时序差分算法(TD)的第二种形式。第一种形式也就是 \(TD(n)\) 算法。具体来说, \(TD(n)\) 的公式可以写为: \[\begin{equation} \begin{aligned} G_{t:t+1} &= R_{t+1} +
阅读全文
posted @ 2025-01-10 14:44 nagimegesa
阅读(273)
评论(0)
推荐(0)