强化深度学习(actor-critic)

模型步骤：

神经网络Q梯度：

神经网络Π：

整体步骤：

qt可换做的δt

posted @ 2021-11-05 18:41 山…隹阅读(83) 评论(0) 收藏举报

刷新页面返回顶部