摘要: 注:本节内容是对Sutton的《Reinforcement Learning: An introduction》第九章的理解整理~ 这里是第四、五节 上节讲到使用函数逼近状态值时使用的优化方法,随机梯度法可以用来求解各种函数最值。最简单的莫过于**线性关系!**近似函数是权值向量$w$的线性函数。 阅读全文
posted @ 2021-11-15 15:32 芋圆院长 阅读(178) 评论(0) 推荐(0) 编辑