摘要:
这几天学习了一个关于TensorFlow的视频,谷歌工程师授课,讲得非常的好,到了data和estimator哪一部分讲得有一点偏难。这里我打算一边参照API文档复习一遍,一边写博客记录下来学习内容。希望能够对自己进一步拿下TensorFlow有帮助 阅读全文
摘要:
torch.max(input) → Tensor 返回输入tensor中所有元素的最大值 a = torch.randn(1, 3)>>0.4729 -0.2266 -0.2085 torch.max(a)>>0.4729 torch.max(input, dim, keepdim=False, 阅读全文
摘要:
第一步!指定gpu import osos.environ["CUDA_VISIBLE_DEVICES"] = '0' 第二步! 对于每一个要踹到gpu去的Tensor或者model x 使用x = x.cuda()就ok了 嘤嘤嘤 阅读全文
摘要:
第一步!启动需要补全的虚拟环境 conda activate pytorch 第二步!安装这玩意儿 pip install jupyter_contrib_nbextensions 第三步! jupyter contrib nbextension install --user 第四步!安装这玩意儿 阅读全文
摘要:
import torch x = torch.tensor(2.,requires_grad=True) #requires_grad=True不能丢,因为默认是False,第一个参数一定得是float形式才能求导 w = torch.tensor(1.,requires_grad=True) b 阅读全文
摘要:
import torch import numpy as np x = torch.tensor([[1,2,3], [4,5,6], [7,8,9]]) y = torch.tensor([[3,2,1], [6,5,4], [9,8,7]]) z = x+y print(z) #直接使用加号就能 阅读全文
摘要:
import torch a = torch.ones(5,3) #5*3的元素全为1的矩阵 print(a) b = torch.rand((5,3)) #5*3的元素为0-1之间的随机数的矩阵 print(b) c = torch.tensor([[1,2,3], [4,5,6], [7,8,9 阅读全文
摘要:
思想:当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分,类似于递归的思想 例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率,Rsa是对应的即时奖励,是在状态S下执行了动作a之后转移到状态S′的概率。 上面这个图就是实际 阅读全文
摘要:
马尔科夫决策要求 1.能够检测到理想状态 2.可以多次尝试采取不同动作 3.系统的下一个状态只与当前状态有关,而与之前的状态无关。在决策过程中还和当前采取的动作有关。 马尔科夫决策过程与5个因素有关: S:表示状态集 A:表示一组动作 P:表示状态转移概率。Psa表示在当前状态S下,执行动作a,转移 阅读全文
摘要:
智能体(agent) 例如alpha-go中的棋盘,用于产生动作的主体就是智能体。 状态(state) l例如当前棋盘中的局势就是状态,表示的是主体执行动作之前需要考虑的外部环境 动作(action) 例如下围棋中的落子,表示智能体在某个状态下采取的一个行为 奖励(reward) 例如当某一步有利于 阅读全文