2021 年 7月 29 日随笔档案 - 小秦同学在上学

2021年7月29日

摘要：一、前言 1、在神经网络中，我们通常需要随机初始化模型的参数。我们可以这样理解 2、假设在一个多层感知机中，输出层只有一个元素（简化处理）。如果将每个隐藏单元的参数都初始化为相同的值，那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。在反向传递中，每个隐藏单元的参数梯度值相阅读全文

posted @ 2021-07-29 17:26 小秦同学在上学阅读(659) 评论(0) 推荐(0) 编辑

梯度消失和梯度爆炸

摘要：转载：https://zhuanlan.zhihu.com/p/25631496 1、梯度爆炸（gradient exploding）问题：参数更新过大，破坏了模型的稳定收敛 2、梯度消失（gradient vanishing）问题：参数更新过小，在每次更新时几乎不会移动，导致模型不能学习 3、梯度阅读全文

posted @ 2021-07-29 16:31 小秦同学在上学阅读(323) 评论(0) 推荐(0) 编辑

正向传播、反向传播

摘要：一、前言正向传播（forward propagation/forward pass）指的是：按顺序（从输入层到输出层）计算和存储神经网络中每层的结果。二、步骤 1、为了简单起见，我们假设输入样本是 𝐱∈ℝ𝑑x∈Rd，并且我们的隐藏层不包括偏置项。这里的中间变量是： 2、其中𝐖(1)∈ℝℎ× 阅读全文

posted @ 2021-07-29 11:30 小秦同学在上学阅读(1007) 评论(0) 推荐(0) 编辑

丢弃法的实现

摘要：一、从零开始实现 1、实现 dropout_layer 函数，该函数以dropout的概率丢弃张量输入X中的元素，重新缩放剩余部分：将剩余部分除以1.0-dropout import torch from torch import nn from d2l import torch as d2l # 阅读全文

posted @ 2021-07-29 11:07 小秦同学在上学阅读(297) 评论(0) 推荐(1) 编辑

丢弃法

摘要：一、前言在深度学习里面，除了用权重衰退来应对过拟合外，还用丢弃法（dropout）来应对过拟合二、概念在现代神经网络中，我们所指的丢弃法，通常是对输入层或者隐含层进行的操作： 1、以丢失概率P随机丢掉该层的部分隐藏单元 2、丢带的隐藏单元会被清零 3、没有丢掉的隐藏单元会除以1-p做拉伸三、阅读全文

posted @ 2021-07-29 10:08 小秦同学在上学阅读(248) 评论(0) 推荐(0) 编辑

公告