摘要: Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念 时序差分控制算法的分类:在线和离线 在线控制算法:一直使用一个策略选择动作和更新价值函数,如Sarsa 离线控制算法:两个策略,一个选择新的动作,一个更新价值函数,如Q-Learning Q 阅读全文