神经网络求解RL

神经网络解决连续状态空间（或者状态很多的情况）

经验回放使得神经网络更拟合打乱状态之间的关联

固定q 多加一个q预测值的神经网络一段时间才会改变以此固定q 让强化学习收敛更平稳

注意的是：因为多了固定q的方法，所以实际上有两个网络，一个model，另外一个target_model网络

model网络算出Q的预测值，target_model网络提供Q的目标值。

并且在运行多轮后才会更新target_model网络（demo里是200轮）。以此延迟更新target_model网络，然后固定住Q目标

if self.global_step % self.update_target_steps == 0: # self.update_target_steps初试为200

self.alg.sync_target()

状态太多了，一个Q表格装不下

那怎么办呢？

用值函数近似

神经网络的code

DQN：使用神经网络求解RL问题的经典算法

和监督学习类似

posted @ 2022-09-04 20:16 atomxing 阅读(42) 评论(0) 编辑收藏举报

刷新页面返回顶部

libxing