合集-DL
摘要:一、数学优化 1.1 定义 Mathematical Optimization(数学优化)问题,亦称最优化问题,是指在一定约束条件下,求解一个目标函数的最大值(或最小值)问题。 根据输入变量 𝑿 的值域是否为实数域,数学优化问题可分为离散优化问题和连续优化问题。 在连续优化问题中,根据是否有变量的
阅读全文
摘要:前言 正则化是一种广泛用于机器学习和深度学习的手段,它的目的就是阻碍模型过度学习(过拟合),从而提升算法的泛化能力。 Dropout 是一种常见的缓解过拟合的方法。接下来,本文将从原理和实践来介绍Dropout技术。 一、Dropout原理 丢弃法(Dropout Method):在训练一个深度神经
阅读全文
摘要:本文是《深度学习进阶:自然语言处理》、《神经网络与深度学习》和《动手学深度学习》的读书笔记。本文将介绍基于Numpy的循环神经网络的前向传播和反向传播实现,包括RNN和LSTM。 一、概述 1.1 循环神经网络(RNN) 循环神经网络(Recurrent Neural Networks, RNN)是
阅读全文
摘要:本文是深度学习入门: 基于Python的实现、神经网络与深度学习(NNDL)以及动手学深度学习的读书笔记。本文将介绍基于Numpy的卷积神经网络(Convolutional Networks,CNN)的实现,本文主要重在理解原理和底层实现。 完整代码见我的github仓库:numpyDL/CNN/t
阅读全文
摘要:本文是深度学习入门: 基于Python的实现、神经网络与深度学习(NNDL)以及花书的读书笔记。本文将以多分类任务为例,介绍多层的前馈神经网络(Feed Forward Networks,FFN)加上Softmax层和交叉熵CE(Cross Entropy)损失的前向传播和反向传播过程(重点)。本文
阅读全文
摘要:参数初始化的读书笔记。参考图书:深度学习入门: 基于Python的实现,神经网络与深度学习(NNDL)。参数初始化主要分为:随机初始化和预训练初始化。随机初始化直接依赖先验分布来初始化网络参数,而预训练初始化则基于有监督或自监督训练来寻找较好的初始值(便于迁移)。 一、随机初始化 在训练线性模型时,
阅读全文
摘要:1. 感知机模型 感知机Perception是一个线性的分类器,其只适用于线性可分的数据: 其试图在所有的线性可分超平面构成的假设空间中找到一个能使训练集中的数据可分的超平面
阅读全文
摘要:一、Transformer Transformer最开始用于机器翻译任务,其架构是seq2seq的编码器解码器架构。其核心是自注意力机制: 每个输入都可以看到全局信息,从而缓解RNN的长期依赖问题。 输入: (待学习的)输入词嵌入 + 位置编码(相对位置) 编码器结构: 6层编码器: 一层编码器 =
阅读全文
摘要:基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 本教程提供:英文数据集wikitext-2和代码数据集的预训练。 注:可以自行上传数据集进行训练 目的:跑通自回归语言模型的预训练流程 一、准备 1.1 安装依赖 !pip install -U data
阅读全文
摘要:基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 鉴于算力限制,选用了较小的英文数据集wikitext-2 目的:跑通Mask语言模型的预训练流程 一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal
阅读全文