transformer中的attention为什么scaled?
摘要:个人学习使用,内容来源于网络,侵权删 参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎
阅读全文
posted @
2024-02-29 12:27
zhou-snaker
阅读(2)
推荐(0) 编辑
手推softmax的求导
摘要:个人学习使用,内容来源于网络,侵权删 手推softmax的求导
阅读全文
posted @
2024-02-29 12:23
zhou-snaker
阅读(5)
推荐(0) 编辑
Post-Norm VS Pre-Norm
摘要:个人学习所使用,内容来源于网络,侵权删 为什么Pre Norm的效果不如Post Norm? Post-Norm VS Pre-Norm
阅读全文
posted @
2024-02-29 10:55
zhou-snaker
阅读(71)
推荐(0) 编辑
transformer 位置编码
摘要:个人学习使用,内容来源于网络,侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len
阅读全文
posted @
2024-02-29 10:18
zhou-snaker
阅读(184)
推荐(0) 编辑
残差网络优点以及缓解梯度消失原因
摘要:个人学习使用,内容来源于网络,侵权删 信息流通与梯度传播:残差连接通过允许信息跳过多个层和帮助梯度更顺畅地回流,共同促进了网络中的信息流通和梯度传播。 模型深度与特征重用:残差网络能够构建更深的模型,并通过残差连接重用早期特征,提高了模型的表达能力和特征利用率。 表示能力与初始化简化:残差连接增加了
阅读全文
posted @
2024-02-28 14:33
zhou-snaker
阅读(238)
推荐(0) 编辑
高方差与过拟合,高偏差与欠拟合
摘要:个人学习使用,内容来源于网络,侵权删 首先对于上图,是我们最希望得到的,它对应着图2中的交点,自然说明此时我们的模型非常好,因此可能会出现 对于第二张图,此时则考虑出现过拟合的情况,即方差较大
阅读全文
posted @
2024-02-28 12:59
zhou-snaker
阅读(23)
推荐(0) 编辑
RNN循环神经网络&LSTM长短期记忆网络&GRU
摘要:个人学习使用,内容来源于网络,侵权删 1. 基本原理 传统网络的结构: RNN的结构: 使用场景: 语音识别,要按顺序处理每一帧的声音信息,有些结果需要根据上下文进行识别; 自然语言处理,要依次读取各个单词,识别某段文字的语义 这些场景都有一个特点,就是都与时间序列有关,且输入的序列数据长度是不固定
阅读全文
posted @
2024-02-27 21:21
zhou-snaker
阅读(53)
推荐(0) 编辑
双向RNN计算实现&多层RNN
摘要:个人学习使用,内容来源于网络,侵权删 双向RNN如下, 做两遍计算:第一遍先正向计算隐状态h,保存成一个序列,顺序是t时刻从1到T。第二遍,将输入反转,计算隐状态h,保存为一个序列,这样顺序就是t时刻从T到1. 最后在计算output,这样在计算output时,所有时刻的隐状态都是已经计算出来了。
阅读全文
posted @
2024-02-27 20:58
zhou-snaker
阅读(36)
推荐(0) 编辑
神经网络梯度消失原因&解决方案
摘要:个人学习使用,内容来源于网络,侵权删 主要原因就是反向传播链式求导某项小于1(如使用sigmoid激活函数,其求导之后值),越深层次网络导数连乘越多,从而导致梯度消失,反之某项大于1会导致梯度爆炸,因此初始过大会导致梯度爆炸。 如图所示,当激活函
阅读全文
posted @
2024-02-26 16:57
zhou-snaker
阅读(54)
推荐(0) 编辑
CNN 卷积神经网络
摘要:个人学习所用,内容来源于网络,侵权删 1. CNN定义 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一
阅读全文
posted @
2024-02-26 14:46
zhou-snaker
阅读(186)
推荐(0) 编辑
损失函数
摘要:个人学习所用,内容来源于网络,侵权删。 1. 定义 损失函数是用来评价网络模型的输出的预测值与真实值之间的差异,我们使用来表示损失函数(非负实值函数),我们的目的是让损失函数尽可能小。 假设网络模型中有\(N
阅读全文
posted @
2024-02-26 14:45
zhou-snaker
阅读(151)
推荐(0) 编辑
优化方法总结
摘要:个人学习使用,内容来源于网络,侵权删 神经网络反向传播时参数朝着最小化损失的方向前进,确切说,是朝着梯度方向更新。设神经网络参数是,学习率是,网络代表的函数是,那么参数更新公式可表示为: $W=W-\alpha*\bigtriangledown_WL(W
阅读全文
posted @
2024-02-26 14:44
zhou-snaker
阅读(53)
推荐(0) 编辑
激活函数
摘要:个人学习所用,内容来源于网络,侵权删 1. 定义 激活函数(Activation functions)对于人工神经网络 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这
阅读全文
posted @
2024-02-21 11:10
zhou-snaker
阅读(74)
推荐(0) 编辑
超参数选择方法
摘要:(个人学习所用,内容来源于网络,侵权删) 猜测和检查 根据直觉选择一个超参数,看是否有效,持续进行。 网格搜索 设置一定范围均匀分布的一组值,挨个尝试。 随机搜索 让计算机随机挑选一组值。 贝叶斯优化 使用像MATLAB的bayesopt之类的工具来自动选择最佳参数,然后你会发现贝叶斯优化比你的机器
阅读全文
posted @
2024-02-21 10:27
zhou-snaker
阅读(115)
推荐(0) 编辑
神经网络基础
摘要:(个人学习所用,内容来源于网络,侵权删) 1. 感知机 感知机由Rosenblatt在1957年提出,是神经网络的基础,该思想受生物学启发(参照下图), 在其看来,人的大脑可以看作一个生物的神经网络,其最小的单元是神经元。人的神经网络由这样的一些神经元组成,它接受一些信号,这些信号可能是眼睛看到的光
阅读全文
posted @
2024-02-21 09:48
zhou-snaker
阅读(24)
推荐(0) 编辑