摘要:
axis equal;保证横纵坐标轴单位刻度比相同。 阅读全文
摘要:
当神经网络层数较多时,模型的数值稳定性就容易变差。假设输出o=XW1W2W3W4W5W6W7。假设激活函数为恒等函数不考虑bias,对W1求导,就是W2W3W4W5W6W7,如果这5个权值较大导致梯度爆炸,否则梯度衰减。 阅读全文
摘要:
正向传播按输入层到输出层的顺序依次计算,并将计算所得中间变量进行存储,这是导致神经网络需要较大内存的原因。 方向传播从输出层到输入层顺序依次计算,利用了链式法则。所求梯度与中间变量当前值有关,这就是为什么需要保持中间变量的原因。 阅读全文
摘要:
torch.optim.SGD返回一个优化器类。 sgd=torch.optim.SGD(paramater,lr=0.5); lr表示学习率,paramater表示参数。 sgd.zero_grad()清除各点的梯度 sgd.step()进行一次优化 阅读全文
摘要:
torch.nn.init.normal_(tensor,mean=0,std=1) 可以给一个变量初始化。 mean是正态分布的均值,std是正态分布的标准差。 阅读全文
摘要:
nn.Sequential是一个容器,用于按顺序放入神经网络的各个结构。 看一下构造函数,他会把每个模型放入列表中。 在前向传播中通过循环调用每个部分。 阅读全文
摘要:
def dropout(X,drop_prob):X=X.float()//将张量变成浮点数张量 assert 0<=drop_prob<=1//drop_prob不满足0-1则终止程序 keep_prob=1-drop_prob//对未丢弃的函数进行拉伸 if keep_prob==0: retu 阅读全文
摘要:
返回和输入矩阵形状相同的全0矩阵。相当于torch.zeros(x.size()) 阅读全文
摘要:
assert 1>=dropout>=0 如果assert后边条件为假,则终止程序运行。 阅读全文