摘要: Transformer模型 FrameWork 第一步:数据的预处理阶段(将文本处理为输入模型的数据类型) 以文本翻译任务(英译中)为例,并且Transform结构为encoder-decoder.那么对于模型的输入有两部分:src:目标原文本(英文);trg:预测文本(中文). src:'Some 阅读全文
posted @ 2024-08-27 17:28 Big-Yellow-J 阅读(151) 评论(1) 推荐(0) 编辑
摘要: 主要对LLM模型微调方法进行介绍,以及部分微调方法代码实操。 阅读全文
posted @ 2024-04-14 14:44 Big-Yellow-J 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 主要介绍单精度/半精度/混合精度训练,以及部分框架(DeepSpeed/Apex) 不同精度训练 单精度训练(single-precision)指的是用32位浮点数(FP32)表示所有的参数、激活值和梯度 半精度训练(half-precision)指的是用16位浮点数(FP16 或 BF16)表示数 阅读全文
posted @ 2025-01-03 19:33 Big-Yellow-J 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码 模型并行 是指将一个模型的不同部分(如层或子模块)分配到不同的设备上运行。它通常用于非常大的模型,这些模型无法完整地放入单个设备的内存中。在模型并行中,数据会顺序通过各个层,即一层处理完所有数据之后再传递给下一层。这意味着,在任 阅读全文
posted @ 2025-01-01 16:58 Big-Yellow-J 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 学习率基础[1] 学习率(Learning Rate)在优化算法,尤其是梯度下降和其变体中,扮演着至关重要的角色。它影响着模型训练的速度和稳定性,并且是实现模型优化的关键参数之一。 如何理解呢? 在统计学中,线性方程的优化过程通常包括以下步骤: 构建方程:定义一个模型,例如线性方程 (y = wx 阅读全文
posted @ 2024-12-18 17:40 Big-Yellow-J 阅读(49) 评论(0) 推荐(1) 编辑
摘要: 深度学习基础理论————"优化"方法(归一化/dropout) 1、归一化方法(LayerNorm/BatchNorm/GroupNorm) 归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, Gr 阅读全文
posted @ 2024-12-18 17:39 Big-Yellow-J 阅读(24) 评论(0) 推荐(0) 编辑
摘要: DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming http://arxiv.org/abs/2406.19101 现存的文档理解多模态模型面临3个主要 阅读全文
posted @ 2024-08-27 17:29 Big-Yellow-J 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 图神经网络基础理论及实操 持续更新ing.............. 推荐阅读: 1、https://github.com/PacktPublishing/Hands-On-Graph-Neural-Networks-Using-Python 2、GAT:http://arxiv.org/abs/1 阅读全文
posted @ 2024-03-01 15:09 Big-Yellow-J 阅读(927) 评论(0) 推荐(0) 编辑
摘要: Large Language Model 模型对比 对于 LLM模型框架主要如下3类[1]:1、autoregressive,2、autoencoding,3、encoder-decoder。主要对3类结构以及部分细节进行阐述。(对于框架分类其实多种,在此论文中[2]采用的是双向/单向结构) TOD 阅读全文
posted @ 2024-02-24 21:35 Big-Yellow-J 阅读(385) 评论(0) 推荐(0) 编辑
摘要: title: Attention is all you need阅读笔记 categories: - 深度学习 tags: - 基础算法 - 深度学习 mathjax: true Attention is all you need Transformer模型 Model Architecture T 阅读全文
posted @ 2024-02-24 21:33 Big-Yellow-J 阅读(81) 评论(0) 推荐(0) 编辑
摘要: title: 机器学习可解释性--LIME categories: - 机器学习 tags: - 机器学习 - 文献笔记 - 机器学习可解释性 mathjax: true A Unified Approach to Interpreting Model Predictions trusting a 阅读全文
posted @ 2024-02-24 21:32 Big-Yellow-J 阅读(267) 评论(0) 推荐(0) 编辑