会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2021年11月15日
强化学习之基于函数逼近的同轨策略预测(三)-- 线性方法及其特征构造
摘要: 注:本节内容是对Sutton的《Reinforcement Learning: An introduction》第九章的理解整理~ 这里是第四、五节 上节讲到使用函数逼近状态值时使用的优化方法,随机梯度法可以用来求解各种函数最值。最简单的莫过于**线性关系!**近似函数是权值向量$w$的线性函数。
阅读全文
posted @ 2021-11-15 15:32 芋圆院长
阅读(178)
评论(0)
推荐(0)
编辑
公告