摘要: 在前面的介绍中,我们都是使用参数θ近似动作值或状态值函数, $\begin {V_\theta }\left( s \right) \approx {V^\pi }\left( s \right) \ {Q_\theta }\left( {s,a} \right) \approx {Q^\pi }\ 阅读全文
posted @ 2020-08-09 22:04 feifanren 阅读(226) 评论(0) 推荐(0) 编辑