随笔分类 - 深度学习
摘要:加速计算(效果不一定好)-> CNN 如何做选择,可以不同head做不同选择。 CNN中注意力的获取 SENet 的核心思想在于通过网络根据 损失函数值loss去学习特征权重,使得对于任务更为效 果明显的特征图权重变大,无效果或效果不明显的特征 图权重变小的方式来训练模型从而达到更好的结果 注意力机
阅读全文
摘要:神经网络的梯度更新 反向传播算法:神经网络中加速计算参数梯度值的方法 梯度下降算法 -> 随机梯度下降、动量随机梯度 凸优化: 几何意义,任取一个集合中的两点练成一条线段,如果这条线段完全落在该集合中,那么这个集合就是凸集 BN训练测试: BN本质上是解决传播过程中的梯度消失问题
阅读全文
摘要:第一步:现象确认 目的:确认和gpt处于同一讨论语境(对现象的认识达成一致) 提问模板:你知道xxx吗?(用地域、时间、学科类别进行限定) 第二步:学术概念化 提问模板:关于xx,在xx领域会用什么概念进行研究? 第三步:定位优质资源 (1)聚焦感兴趣的学术概念 提问模板:关于xxx,请推荐5篇引用
阅读全文
摘要:1. 序列模型 a)自回归模型 对见过的数据建模 b)马尔可夫模型 c)因果关系 2. 单机多卡并行 数据并行和模型并行: 数据并行,将小批量分成n块,每个GPU拿到完整参数计算,性能更好。模型并行,将模型分成n块,每个GPU拿到一块模型计算前向和方向结果,用于单GPU放不下 小批量分到多GPU计算
阅读全文
摘要:作者:Gordon Leehttps://www.zhihu.com/question/540433389/answer/2549775065 1.R-Drop:两次前向+KL loss约束 2. MLM: 在领域语料上用mlm进一步预训练 (Post-training) 3. EFL: 少样本下,
阅读全文
摘要:深度学习计算 1. 块提供的基本功能: 1. 输入数据作为前向传播函数的参数 2. 通过前向传播函数生成输出 3. 计算其输出关于输入的梯度 4.存储和访问前向传播计算所需的参数 5. 根据需要初始化模型参数 2. Sequential 类 1. 将块逐个追加到列表中的函数 2. 前向传播函数,用于
阅读全文
摘要:引言 一:过去⼗年中取 得巨⼤进步的想法 1.如dropout (Srivastava et al., 2014),有助于减轻过拟合的危险。这是通过在整个神 经⽹络中应⽤噪声注⼊ (Bishop, 1995) 来实现的,出于训练⽬的,⽤随机变量来代替权重 2.注意⼒机制解决了困扰统计学⼀个多世纪的问
阅读全文
摘要:卷积神经网络-LeNet 理解channel:卷积操作完成后输出的 out_channels ,取决于卷积核的数量。此时的 out_channels 也会作为下一次卷积时的卷积核的 in_channels C1 层功能解读:卷积核(filter)实际上就是小的特征模版(5×5 feature win
阅读全文
摘要:RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出 基本RNN:循环网络的基本构成 LSTM:突破性进展的长
阅读全文
摘要:全连接层: 如果说卷积层、池化层和激活函数等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”(下面会讲到这个分布式特征)映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现 知识蒸馏: 一个很直白且高效的迁移泛化能力的方法就是:使用softmax层输出的类
阅读全文