2022 年 9月 4 日随笔档案 - python我的最爱

2022年9月4日

摘要：对于之前提到的DQN模型, 损失函数使用的 Q(state) = reward + Q(nextState)max Q(state)由训练网络生成, Q(nextState)max由目标网络生成这种损失函数会存在问题，即当Q(nextState)max总是大于0时，那么Q(state)总是在不停的阅读全文

posted @ 2022-09-04 21:40 python我的最爱阅读(1185) 评论(0) 推荐(0) 编辑

强化学习-DQN(Deep Q-netword)

摘要： 1.DQN的动作选择策略是epsilon-贪婪策略 (1)当随机值小于阈值时, 使用随机的action (2)当随机值大于阈值时, 使用网络输出的最大Q值的方向 2.DQN的损失函数计算 (1)输入state, 生成最大方向的action (2)将action输入到环境中, 获得next_state 阅读全文

posted @ 2022-09-04 17:29 python我的最爱阅读(781) 评论(0) 推荐(0) 编辑