随笔 - 480  文章 - 0 评论 - 45 阅读 - 73万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

摘要: 1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值,求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss 阅读全文
posted @ 2022-09-11 16:23 python我的最爱 阅读(295) 评论(0) 推荐(0) 编辑
摘要: DuelingDQN的原理是Q的期望汇报,由两个输出决定,一个是Action的价值,还有一个是当前状态的价值 即由算法本来来确定当前的状态是否是好的,为了使得当前状态的价格可以更新,即对Action的输出做归一化的限制 A = self.fc_A(F.relu(self.fc1(x))) V = s 阅读全文
posted @ 2022-09-11 16:15 python我的最爱 阅读(245) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示