摘要: SARSA算法严格上来说,是TD(0)关于状态动作函数估计的on-policy形式,所以其基本架构与TD的$v_{\pi}$估计算法(on-policy)并无太大区别,所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法,并在过程中熟练并总结SARSA算法的流程与基本结构。 强 阅读全文
posted @ 2018-08-03 21:39 JinyuBlog 阅读(1487) 评论(0) 推荐(0) 编辑