2021 年 11月 15 日随笔档案 - 芋圆院长

2021年11月15日

摘要：注：本节内容是对Sutton的《Reinforcement Learning: An introduction》第九章的理解整理~ 这里是第四、五节上节讲到使用函数逼近状态值时使用的优化方法，随机梯度法可以用来求解各种函数最值。最简单的莫过于**线性关系！**近似函数是权值向量$w$的线性函数。阅读全文

posted @ 2021-11-15 15:32 芋圆院长阅读(178) 评论(0) 推荐(0) 编辑

芋圆院长

公告