摘要:
一、代码 import random import gym import numpy as np import torch import torch.nn.functional as F import matplotlib.pyplot as plt import rl_utils from tqd 阅读全文
摘要:
tensor.gather()的作用就是按照索引取对应的数据出来。之前看图解PyTorch中的torch.gather函数,那个图示看得我有点懵逼,所以自己画了两张图总结了一下规律来理解一下。 首先新建一个3*3的二维矩阵。 import torch t1 = torch.tensor([[1, 阅读全文
摘要:
第 8 章 DQN 改进算法 8.1 简介 DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的 阅读全文
摘要:
一、代码如下: import random import gym import numpy as np import collections from tqdm import tqdm import torch import torch.nn.functional as F import matpl 阅读全文