随笔 - 480  文章 - 0 评论 - 45 阅读 - 73万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

摘要: 对于之前提到的DQN模型, 损失函数使用的 Q(state) = reward + Q(nextState)max Q(state)由训练网络生成, Q(nextState)max由目标网络生成 这种损失函数会存在问题,即当Q(nextState)max总是大于0时,那么Q(state)总是在不停的 阅读全文
posted @ 2022-09-04 21:40 python我的最爱 阅读(1242) 评论(0) 推荐(0) 编辑
摘要: 1.DQN的动作选择策略是epsilon-贪婪策略 (1)当随机值小于阈值时, 使用随机的action (2)当随机值大于阈值时, 使用网络输出的最大Q值的方向 2.DQN的损失函数计算 (1)输入state, 生成最大方向的action (2)将action输入到环境中, 获得next_state 阅读全文
posted @ 2022-09-04 17:29 python我的最爱 阅读(813) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示