强化深度学习(actor-critic)

模型步骤:

 

 

神经网络Q梯度:

 

 神经网络Π:

 整体步骤:

 

 qt可换做的δt

posted @ 2021-11-05 18:41  山…隹  阅读(64)  评论(0编辑  收藏  举报