DL- - LeonYi - 博客园

【优化算法】从梯度下降到深度学习非凸优化

摘要：一、数学优化 1.1 定义 Mathematical Optimization（数学优化）问题，亦称最优化问题，是指在一定约束条件下，求解一个目标函数的最大值（或最小值）问题。根据输入变量 𝑿 的值域是否为实数域，数学优化问题可分为离散优化问题和连续优化问题。在连续优化问题中，根据是否有变量的阅读全文

posted @ 2023-05-05 00:07 LeonYi 阅读(1796) 评论(0) 推荐(1)

【深度学习】神经网络正则化方法之Dropout

摘要：前言正则化是一种广泛用于机器学习和深度学习的手段，它的目的就是阻碍模型过度学习（过拟合），从而提升算法的泛化能力。 Dropout 是一种常见的缓解过拟合的方法。接下来，本文将从原理和实践来介绍Dropout技术。一、Dropout原理丢弃法（Dropout Method）：在训练一个深度神经阅读全文

posted @ 2023-04-16 22:35 LeonYi 阅读(731) 评论(0) 推荐(1)

【深度学习基础】基于Numpy的循环神经网络实现和反向传播训练

摘要：本文是《深度学习进阶:自然语言处理》、《神经网络与深度学习》和《动手学深度学习》的读书笔记。本文将介绍基于Numpy的循环神经网络的前向传播和反向传播实现，包括RNN和LSTM。一、概述 1.1 循环神经网络(RNN) 循环神经网络（Recurrent Neural Networks, RNN）是阅读全文

posted @ 2022-08-01 22:59 LeonYi 阅读(466) 评论(0) 推荐(0)

【深度学习基础】基于Numpy在Minst上实现CNN反向传播训练

摘要：本文是深度学习入门：基于Python的实现、神经网络与深度学习（NNDL）以及动手学深度学习的读书笔记。本文将介绍基于Numpy的卷积神经网络（Convolutional Networks，CNN）的实现，本文主要重在理解原理和底层实现。完整代码见我的github仓库：numpyDL/CNN/t 阅读全文

posted @ 2022-06-09 18:05 LeonYi 阅读(1333) 评论(0) 推荐(0)

【深度学习基础】基于Numpy的前馈神经网络（FFN）的构建和反向传播训练

摘要：本文是深度学习入门：基于Python的实现、神经网络与深度学习（NNDL）以及花书的读书笔记。本文将以多分类任务为例，介绍多层的前馈神经网络（Feed Forward Networks，FFN）加上Softmax层和交叉熵CE（Cross Entropy）损失的前向传播和反向传播过程（重点）。本文阅读全文

posted @ 2022-05-06 16:50 LeonYi 阅读(11883) 评论(0) 推荐(2)

【深度学习基础】深度神经网络的参数初始化方法

摘要：参数初始化的读书笔记。参考图书：深度学习入门：基于Python的实现，神经网络与深度学习（NNDL）。参数初始化主要分为：随机初始化和预训练初始化。随机初始化直接依赖先验分布来初始化网络参数，而预训练初始化则基于有监督或自监督训练来寻找较好的初始值（便于迁移）。一、随机初始化在训练线性模型时，阅读全文

posted @ 2022-04-25 11:37 LeonYi 阅读(896) 评论(0) 推荐(0)

【深度学习基础】基于Numpy的感知机Perception构建和训练

摘要：1. 感知机模型感知机Perception是一个线性的分类器，其只适用于线性可分的数据：\[ f(\mathbf{x}) = sign(\mathbf{w}^\mathrm{T} \mathbf{x} + b)\] 其试图在所有的线性可分超平面构成的假设空间中找到一个能使训练集中的数据可分的超平面阅读全文

posted @ 2022-04-18 17:24 LeonYi 阅读(369) 评论(0) 推荐(0)

【大语言模型基础】-详解Transformer原理

摘要：一、Transformer Transformer最开始用于机器翻译任务，其架构是seq2seq的编码器解码器架构。其核心是自注意力机制：每个输入都可以看到全局信息，从而缓解RNN的长期依赖问题。输入：（待学习的）输入词嵌入 + 位置编码（相对位置）编码器结构： 6层编码器：一层编码器 = 阅读全文

posted @ 2023-04-15 22:51 LeonYi 阅读(2322) 评论(0) 推荐(1)

【预训练语言模型】使用Transformers库进行GPT2预训练

摘要：基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。本教程提供：英文数据集wikitext-2和代码数据集的预训练。注：可以自行上传数据集进行训练目的：跑通自回归语言模型的预训练流程一、准备 1.1 安装依赖 !pip install -U data 阅读全文

posted @ 2024-03-13 22:21 LeonYi 阅读(1121) 评论(0) 推荐(1)

【预训练语言模型】使用Transformers库进行BERT预训练

摘要：基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。鉴于算力限制，选用了较小的英文数据集wikitext-2 目的：跑通Mask语言模型的预训练流程一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal 阅读全文

posted @ 2024-03-13 22:25 LeonYi 阅读(1146) 评论(0) 推荐(0)

LeonYi

LeonYi

仰望星空，脚踏实地

合集-DL

公告