2022 年 9月 11 日随笔档案 - python我的最爱

2022年9月11日

摘要： 1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值，求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss 阅读全文

posted @ 2022-09-11 16:23 python我的最爱阅读(281) 评论(0) 推荐(0) 编辑

强化学习-DuelingDQN(决斗DQN)

摘要： DuelingDQN的原理是Q的期望汇报，由两个输出决定，一个是Action的价值，还有一个是当前状态的价值即由算法本来来确定当前的状态是否是好的，为了使得当前状态的价格可以更新，即对Action的输出做归一化的限制 A = self.fc_A(F.relu(self.fc1(x))) V = s 阅读全文

posted @ 2022-09-11 16:15 python我的最爱阅读(212) 评论(0) 推荐(0) 编辑