摘要: 一、前言 1、在神经网络中,我们通常需要随机初始化模型的参数。我们可以这样理解 2、假设在一个多层感知机中,输出层只有一个元素(简化处理)。如果将每个隐藏单元的参数都初始化为相同的值,那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值,并传递至输出层。在反向传递中,每个隐藏单元的参数梯度值相 阅读全文
posted @ 2021-07-29 17:26 小秦同学在上学 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 转载:https://zhuanlan.zhihu.com/p/25631496 1、梯度爆炸(gradient exploding)问题:参数更新过大,破坏了模型的稳定收敛 2、梯度消失(gradient vanishing)问题:参数更新过小,在每次更新时几乎不会移动,导致模型不能学习 3、梯度 阅读全文
posted @ 2021-07-29 16:31 小秦同学在上学 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 一、前言 正向传播(forward propagation/forward pass)指的是:按顺序(从输入层到输出层)计算和存储神经网络中每层的结果。 二、步骤 1、为了简单起见,我们假设输入样本是 𝐱∈ℝ𝑑x∈Rd,并且我们的隐藏层不包括偏置项。这里的中间变量是: 2、其中𝐖(1)∈ℝℎ× 阅读全文
posted @ 2021-07-29 11:30 小秦同学在上学 阅读(1007) 评论(0) 推荐(0) 编辑
摘要: 一、从零开始实现 1、实现 dropout_layer 函数,该函数以dropout的概率丢弃张量输入X中的元素,重新缩放剩余部分:将剩余部分除以1.0-dropout import torch from torch import nn from d2l import torch as d2l # 阅读全文
posted @ 2021-07-29 11:07 小秦同学在上学 阅读(297) 评论(0) 推荐(1) 编辑
摘要: 一、前言 在深度学习里面,除了用权重衰退来应对过拟合外,还用丢弃法(dropout)来应对过拟合 二、概念 在现代神经网络中,我们所指的丢弃法,通常是对输入层或者隐含层进行的操作: 1、以丢失概率P随机丢掉该层的部分隐藏单元 2、丢带的隐藏单元会被清零 3、没有丢掉的隐藏单元会除以1-p做拉伸 三、 阅读全文
posted @ 2021-07-29 10:08 小秦同学在上学 阅读(248) 评论(0) 推荐(0) 编辑