随笔档案「2018年8月3日」：【RL系列】SARSA算法的基本结构 ... - JinyuBlog

2018年8月3日

摘要： SARSA算法严格上来说，是TD(0)关于状态动作函数估计的on-policy形式，所以其基本架构与TD的$v_{\pi}$估计算法（on-policy）并无太大区别，所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法，并在过程中熟练并总结SARSA算法的流程与基本结构。强阅读全文

posted @ 2018-08-03 21:39 JinyuBlog 阅读(1595) 评论(0) 推荐(0)

JinyuBlog

公告