神经网络求解RL
神经网络解决连续状态空间(或者状态很多的情况)
经验回放 使得神经网络更拟合 打乱状态之间的关联
固定q 多加一个q预测值的神经网络 一段时间才会改变 以此固定q 让强化学习收敛更平稳
注意的是:因为多了固定q的方法,所以实际上有两个网络,一个model,另外一个target_model网络
model网络算出Q的预测值,target_model网络提供Q的目标值。
并且在运行多轮后才会更新target_model网络(demo里是200轮)。以此延迟更新target_model网络,然后固定住Q目标
if self.global_step % self.update_target_steps == 0: # self.update_target_steps初试为200 self.alg.sync_target() |
状态太多了,一个Q表格装不下
那怎么办呢?
用值函数近似
神经网络的code
DQN:使用神经网络求解RL问题的经典算法
和监督学习类似
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)