随笔 - 27  文章 - 0  评论 - 0  阅读 - 1699

随笔分类 -  深度学习

深度学习模型压缩技术
摘要:个人学习使用,侵权删 参考资料: 深度学习模型压缩技术 阅读全文
posted @ 2024-03-07 14:16 zhou-snaker 阅读(7) 评论(0) 推荐(0) 编辑
为什么 Bert 的三个 Embedding 可以进行相加?
摘要:个人学习使用,侵权删 参考连接: 为什么 Bert 的三个 Embedding 可以进行相加? 阅读全文
posted @ 2024-03-04 15:05 zhou-snaker 阅读(9) 评论(0) 推荐(0) 编辑
生成时预训练模型
摘要:个人学习使用,侵权删 参考连接: 生成式预训练模型:UniLM、BART、T5、GPT 阅读全文
posted @ 2024-03-04 11:16 zhou-snaker 阅读(6) 评论(0) 推荐(0) 编辑
手推softmax的求导
摘要:个人学习使用,内容来源于网络,侵权删 手推softmax的求导 阅读全文
posted @ 2024-02-29 12:23 zhou-snaker 阅读(5) 评论(0) 推荐(0) 编辑
残差网络优点以及缓解梯度消失原因
摘要:个人学习使用,内容来源于网络,侵权删 信息流通与梯度传播:残差连接通过允许信息跳过多个层和帮助梯度更顺畅地回流,共同促进了网络中的信息流通和梯度传播。 模型深度与特征重用:残差网络能够构建更深的模型,并通过残差连接重用早期特征,提高了模型的表达能力和特征利用率。 表示能力与初始化简化:残差连接增加了 阅读全文
posted @ 2024-02-28 14:33 zhou-snaker 阅读(238) 评论(0) 推荐(0) 编辑
高方差与过拟合,高偏差与欠拟合
摘要:个人学习使用,内容来源于网络,侵权删 首先对于上图,low bias and low variance是我们最希望得到的,它对应着图2中的交点,自然说明此时我们的模型非常好,因此可能会出现 对于第二张图,此时则考虑出现过拟合的情况,即方差较大 阅读全文
posted @ 2024-02-28 12:59 zhou-snaker 阅读(23) 评论(0) 推荐(0) 编辑
RNN循环神经网络&LSTM长短期记忆网络&GRU
摘要:个人学习使用,内容来源于网络,侵权删 1. 基本原理 传统网络的结构: RNN的结构: 使用场景: 语音识别,要按顺序处理每一帧的声音信息,有些结果需要根据上下文进行识别; 自然语言处理,要依次读取各个单词,识别某段文字的语义 这些场景都有一个特点,就是都与时间序列有关,且输入的序列数据长度是不固定 阅读全文
posted @ 2024-02-27 21:21 zhou-snaker 阅读(53) 评论(0) 推荐(0) 编辑
双向RNN计算实现&多层RNN
摘要:个人学习使用,内容来源于网络,侵权删 双向RNN如下, 做两遍计算:第一遍先正向计算隐状态h,保存成一个序列,顺序是t时刻从1到T。第二遍,将输入反转,计算隐状态h,保存为一个序列,这样顺序就是t时刻从T到1. 最后在计算output,这样在计算output时,所有时刻的隐状态都是已经计算出来了。 阅读全文
posted @ 2024-02-27 20:58 zhou-snaker 阅读(36) 评论(0) 推荐(0) 编辑
神经网络梯度消失原因&解决方案
摘要:个人学习使用,内容来源于网络,侵权删 主要原因就是反向传播链式求导某项小于1(如使用sigmoid激活函数,其求导之后值0.25),越深层次网络导数连乘越多,从而导致梯度消失,反之某项大于1会导致梯度爆炸,因此初始W过大会导致梯度爆炸。 如图所示,当σ激活函 阅读全文
posted @ 2024-02-26 16:57 zhou-snaker 阅读(54) 评论(0) 推荐(0) 编辑
CNN 卷积神经网络
摘要:个人学习所用,内容来源于网络,侵权删 1. CNN定义 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 阅读全文
posted @ 2024-02-26 14:46 zhou-snaker 阅读(186) 评论(0) 推荐(0) 编辑
损失函数
摘要:个人学习所用,内容来源于网络,侵权删。 1. 定义 损失函数是用来评价网络模型的输出的预测值Y^=f(X)与真实值Y之间的差异,我们使用L(Y,Y^)来表示损失函数(非负实值函数),我们的目的是让损失函数尽可能小。 假设网络模型中有\(N 阅读全文
posted @ 2024-02-26 14:45 zhou-snaker 阅读(152) 评论(0) 推荐(0) 编辑
优化方法总结
摘要:个人学习使用,内容来源于网络,侵权删 神经网络反向传播时参数朝着最小化损失的方向前进,确切说,是朝着梯度方向更新。设神经网络参数是W,学习率是α,网络代表的函数是L(W),那么参数更新公式可表示为: $W=W-\alpha*\bigtriangledown_WL(W 阅读全文
posted @ 2024-02-26 14:44 zhou-snaker 阅读(53) 评论(0) 推荐(0) 编辑
激活函数
摘要:个人学习所用,内容来源于网络,侵权删 1. 定义 激活函数(Activation functions)对于人工神经网络 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这 阅读全文
posted @ 2024-02-21 11:10 zhou-snaker 阅读(74) 评论(0) 推荐(0) 编辑
超参数选择方法
摘要:(个人学习所用,内容来源于网络,侵权删) 猜测和检查 根据直觉选择一个超参数,看是否有效,持续进行。 网格搜索 设置一定范围均匀分布的一组值,挨个尝试。 随机搜索 让计算机随机挑选一组值。 贝叶斯优化 使用像MATLAB的bayesopt之类的工具来自动选择最佳参数,然后你会发现贝叶斯优化比你的机器 阅读全文
posted @ 2024-02-21 10:27 zhou-snaker 阅读(115) 评论(0) 推荐(0) 编辑
神经网络基础
摘要:(个人学习所用,内容来源于网络,侵权删) 1. 感知机 感知机由Rosenblatt在1957年提出,是神经网络的基础,该思想受生物学启发(参照下图), 在其看来,人的大脑可以看作一个生物的神经网络,其最小的单元是神经元。人的神经网络由这样的一些神经元组成,它接受一些信号,这些信号可能是眼睛看到的光 阅读全文
posted @ 2024-02-21 09:48 zhou-snaker 阅读(24) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示