【动手学深度学习】2.4 ~ 2.7 节学习(微积分、自动求导、概率、查阅文档)

2.4 微积分#

2.4.3 梯度#

梯度是一个多元函数所有变量偏导数的连接。具体而言:设函数 f:RnR 的输入是一个 n 维向量 x=[x1,x2,,xn]T,输出是一个标量。函数 f(x) 相对于 x 的梯度是一个包含 n 个偏导数的向量:

xf(x)=[f(x)x1,f(x)x2,,f(x)xn]T

其中,xf(x) 在没有歧义时通常被 f(x) 取代。

假设 xn 维向量,在对多元函数求微分时经常使用以下规则:

  • 对于所有 ARm×n,都有 xAx=AT
  • 对于所有 ARm×n,都有 xxTA=A
  • 对于所有 ARm×n,都有 xxTAx=(A+AT)x
  • x||x||2=xxTx=2x

同样,对于任何矩阵 X,都有 X||X||F2=2X

2.4.4 链式法则#

假设可微函数 y 有变量 u1,u2,,um,其中每个可微函数 ui 都有变量 x1,x2,,xn

dydxi=dydu1du1dxi+dydu2du2dxi++dydumdumdxi

2.5 自动求导#

2.5.1 一些简单的函数#

  • x.requires_grad_(True) 表明 x 需要梯度,等价于 x = torch.arange(4.0, requires_grad=True)
  • x.grad 表示 x 的梯度
  • x.grad.zero_() 表示将 x 的梯度归零
  • y.backward() 将 y 的值反向传播,然后再 x.grad 即可看 x 的梯度。这个方法与 torch.autograd.grad() 差不多,但是,求高阶导数只能用后一种方法,原因在于 backward() 后 x 的一阶导已经占据了 x.grad 没有办法做清零或者再 backward() 了。而且,torch.autograd.grad()create_graph 参数必须为 True
    • 参数 retain_graph 表示是否保留计算图,因为正常为了保持速度,计算图会在反向传播完被销毁,把这个调成 True,计算图就不会被销毁,仍然可以反向传播。
    • 参数 create_graph 表示是否创建反向图,有了反向图就可以再次求高阶导了。

2.5.2 非标量变量的反向传播#

由于自动梯度实现张量对张量求梯度很麻烦几乎不可做,因此 PyTorch 中禁止了张量对张量求梯度。如果要张量对张量求梯度的话,最好将结果张量求和,例如调用 y.sum().backward()

[(y1+y2++yn)x1,(y1+y2++yn)x2,,(y1+y2++yn)xn]=[y1x1+y2x1++ynx1,y1x2+y2x2++ynx2,,y1xn+y2xn++ynxn]

或者也可以给 backward () 传入 gradient 参数,如果要实现和上文一样的功能,可以调用 y.backward(torch.ones_like(y)),效果一样。参考 pytorch中backward函数的gradient参数作用PyTorch 的 backward 为什么有一个 grad_variables 参数? 这两篇文章。

假设 x 经过一番计算得到 y,那么 y.backward(w) 求的不是 y 对 x 的导数,而是 l = torch.sum(y*w) 对 x 的导数。w 可以视为 y 的各分量的权重,也可以视为遥远的损失函数 l 对 y 的偏导数(这正是函数说明文档的含义)。特别地,若 y 为标量,w 取默认值 1.0,才是按照我们通常理解的那样,求 y 对 x 的导数。

由于当 x, y 都为张量时,xy 不好求,因此退而求其次,利用遥远的 loss 函数标量 l 来求 xl。不妨假设此时反向传播过程已经计算完毕了 yl=[dldy1,dldy2,,dldyn],此时还有另一个 Jocabi 矩阵是关于张量 y 中每一个元素和张量 x 中每一个元素的关系的,可以简单地在这一步中利用梯度追踪求出它:

[dy1dx1dy1dx2dy1dxmdy2dx1dy2dx2dy2dxmdyndx1dyndx2dyndxm]

于是,接下来利用这两个式子,就可以求出至关重要的 xl 了。

xl=[dldx1,dldx2,,dldxm]=[dldy1,dldy2,,dldyn][dy1dx1dy1dx2dy1dxmdy2dx1dy2dx2dy2dxmdyndx1dyndx2dyndxm]

可以发现,本质上讲,yl 就上文引用文本中的 w,或者说是 backward(gradient) 这个函数中的 gradient 参数。

2.5.3 分离计算#

有时希望将某些计算移到记录的计算图之外。这里可以利用 u = y.detach() 将 y 视为一个常数,然后丢弃计算图中如何计算 y 的任何信息。换言之,梯度不会向后流经 u 到 x。

2.5.4 Python 控制流的梯度计算#

即使构建函数的计算图需要通过 Python 控制流,也可以计算得到变量的梯度。

2.6 概率#

调用下面的代码产生 x 个采样 n 个样本的张量。

import torch
from torch.distributions import multinomial
x = 5
n = 10
fair_probs = torch.ones([6]) / 6
multinomial.Multinomial(n, fair_probs).sample((x, ))
tensor([[1., 2., 2., 2., 1., 2.],
        [3., 2., 0., 2., 1., 2.],
        [2., 1., 2., 1., 2., 2.],
        [1., 3., 4., 1., 0., 1.],
        [2., 3., 2., 3., 0., 0.]])

2.7 查阅文档#

2.7.1 查找模块中的所有函数和类#

可以调用 dir() 函数来查找模块中的所有函数和类。例如:

import torch
print(dir(torch.distributions))
['AbsTransform', 'AffineTransform', 'Bernoulli', 'Beta', 'Binomial', 'CatTransform', 'Categorical', 'Cauchy', 'Chi2', 'ComposeTransform', 'ContinuousBernoulli', 'CorrCholeskyTransform', 'CumulativeDistributionTransform', 'Dirichlet', 'Distribution', 'ExpTransform', 'Exponential', 'ExponentialFamily', 'FisherSnedecor', 'Gamma', 'Geometric', 'Gumbel', 'HalfCauchy', 'HalfNormal', 'Independent', 'IndependentTransform', 'Kumaraswamy', 'LKJCholesky', 'Laplace', 'LogNormal', 'LogisticNormal', 'LowRankMultivariateNormal', 'LowerCholeskyTransform', 'MixtureSameFamily', 'Multinomial', 'MultivariateNormal', 'NegativeBinomial', 'Normal', 'OneHotCategorical', 'OneHotCategoricalStraightThrough', 'Pareto', 'Poisson', 'PowerTransform', 'RelaxedBernoulli', 'RelaxedOneHotCategorical', 'ReshapeTransform', 'SigmoidTransform', 'SoftmaxTransform', 'SoftplusTransform', 'StackTransform', 'StickBreakingTransform', 'StudentT', 'TanhTransform', 'Transform', 'TransformedDistribution', 'Uniform', 'VonMises', 'Weibull', 'Wishart', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', 'bernoulli', 'beta', 'biject_to', 'binomial', 'categorical', 'cauchy', 'chi2', 'constraint_registry', 'constraints', 'continuous_bernoulli', 'dirichlet', 'distribution', 'exp_family', 'exponential', 'fishersnedecor', 'gamma', 'geometric', 'gumbel', 'half_cauchy', 'half_normal', 'identity_transform', 'independent', 'kl', 'kl_divergence', 'kumaraswamy', 'laplace', 'lkj_cholesky', 'log_normal', 'logistic_normal', 'lowrank_multivariate_normal', 'mixture_same_family', 'multinomial', 'multivariate_normal', 'negative_binomial', 'normal', 'one_hot_categorical', 'pareto', 'poisson', 'register_kl', 'relaxed_bernoulli', 'relaxed_categorical', 'studentT', 'transform_to', 'transformed_distribution', 'transforms', 'uniform', 'utils', 'von_mises', 'weibull', 'wishart']

可以忽略以“__”(双下划线)开始和结束的函数(它们时 Python 中的特殊对象)和以“_”(单下划线)开始的函数(通常是内部函数)

2.7.2 查找特定函数和类的用法#

可以调用 help 函数查看。例如采样的多项式分布函数:

from torch.distributions import multinomial
help(multinomial.Multinomial(1, fair_probs))
Help on Multinomial in module torch.distributions.multinomial object:

class Multinomial(torch.distributions.distribution.Distribution)
 |  Multinomial(total_count=1, probs=None, logits=None, validate_args=None)
 |  
 |  Creates a Multinomial distribution parameterized by :attr:`total_count` and
 |  either :attr:`probs` or :attr:`logits` (but not both). The innermost dimension of
 |  :attr:`probs` indexes over categories. All other dimensions index over batches.
 |  
 |  Note that :attr:`total_count` need not be specified if only :meth:`log_prob` is
 |  called (see example below)
 |  
 |  .. note:: The `probs` argument must be non-negative, finite and have a non-zero sum,
 |            and it will be normalized to sum to 1 along the last dimension. :attr:`probs`
 |            will return this normalized value.
 |            The `logits` argument will be interpreted as unnormalized log probabilities
 |            and can therefore be any real number. It will likewise be normalized so that
 |            the resulting probabilities sum to 1 along the last dimension. :attr:`logits`
 |            will return this normalized value.
 |  
 |  -   :meth:`sample` requires a single shared `total_count` for all
 |      parameters and samples.
 |  -   :meth:`log_prob` allows different `total_count` for each parameter and
 |      sample.

# 以下内容过长,故省略

或者在 jupyter notebook 中,可以使用?指令在另一个浏览器窗口中显示文档。例如,list? 指令将创建与 help(list) 指令几乎相同的内容,并在新的浏览器窗口中显示它。 此外,如果我们使用两个问号,如 list??,将显示实现该函数的 Python 代码。

posted @   bringlu  阅读(96)  评论(0编辑  收藏  举报
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示
主题色彩