二者都是基于Qtable的算法,其中Qlearning属于off-policy,Sarsa属于on-policy。
算法伪代码:
二者主要区别是更新Qtable的方式不同:
Powered by: 博客园 Copyright © 2024 暗恋懒羊羊 Powered by .NET 9.0 on Kubernetes