摘要:
1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值,求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss 阅读全文
摘要:
DuelingDQN的原理是Q的期望汇报,由两个输出决定,一个是Action的价值,还有一个是当前状态的价值 即由算法本来来确定当前的状态是否是好的,为了使得当前状态的价格可以更新,即对Action的输出做归一化的限制 A = self.fc_A(F.relu(self.fc1(x))) V = s 阅读全文