摘要: 主要对LLM模型微调方法进行介绍,以及部分微调方法代码实操。 阅读全文
posted @ 2024-04-14 14:44 Big-Yellow-J 阅读(10) 评论(0) 推荐(0)
摘要: 本文写作于2025.3.20,恰好作者正好在外面实习,于此同时在实际工作中遇到这些知识点,因此就进行一个简短汇总方便后续回顾,内容同步更新(显示问题可以直接看):https://www.big-yellow-j.top/posts/2025/03/22/PythonThreading.html可以直 阅读全文
posted @ 2025-03-26 22:38 Big-Yellow-J 阅读(27) 评论(0) 推荐(0)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sp 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(113) 评论(0) 推荐(0)
摘要: From: https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总 只去对比整体框架,对所采用的激活函数,归一化处理,位置编码等参考: 1、位置编码:https://www.big-yellow-j.top/posts/2 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(857) 评论(0) 推荐(2)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/17/Attention.html Attention操作以及内存优化管理 一、Attention操作 关于 Multi Head Attention网上有较多的解释了,这里主要记录如下几点 1、对于注意 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(263) 评论(0) 推荐(0)
摘要: 1、混合专家模型(MoE) 参考HuggingFace中介绍:混合专家模型主要由两部分构成: 1、稀疏的MoE层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈 阅读全文
posted @ 2025-01-29 22:14 Big-Yellow-J 阅读(366) 评论(0) 推荐(0)
摘要: 主要介绍在CV中常用的Backbone原理简易代码(代码以及原理经常更新),参考论文中的表格,对不同的任务所使用的backbone如下: 针对上面内容分为两块内容:1、基于卷积神经网络的CV Backbone:1.Resnet系列;2.Unet系列等;2、基于Transformer的 CV Back 阅读全文
posted @ 2025-01-24 17:44 Big-Yellow-J 阅读(299) 评论(0) 推荐(2)
摘要: 如果⼀个机器学习模型运⾏良好,为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢? 诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时,需要作出权衡:你是只想知道预测是什么?例如,客户流失的概率或某种药物对病⼈的疗效。还是想知道为什么做出这样的预测?这种情况下可能为了可解 阅读全文
posted @ 2025-01-18 11:47 Big-Yellow-J 阅读(491) 评论(0) 推荐(0)
摘要: 本文通过结合如下论文以及blog: 1、贝叶斯优化研究综述:https://doi.org/10.13328/j.cnki.jos.005607. 2、高斯回归可视化:https://jgoertler.com/visual-exploration-gaussian-processes/ 3、贝叶斯 阅读全文
posted @ 2025-01-18 11:46 Big-Yellow-J 阅读(310) 评论(0) 推荐(0)
摘要: More: https://www.big-yellow-j.top/ 如果⼀个机器学习模型运⾏良好,为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢? 诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时,需要作出权衡:你是只想知道预测是什么?例如,客户流失的概率或某种 阅读全文
posted @ 2025-01-18 11:37 Big-Yellow-J 阅读(101) 评论(0) 推荐(0)
摘要: DeepSpeed原理 DeepSpeed 是由微软开发的一种深度学习优化库,专为高性能训练和推理而设计,尤其适用于大规模深度学习模型(如 GPT 系列、BERT 等)。它通过一系列技术和优化策略,帮助研究者和开发者高效利用硬件资源,实现快速训练、降低内存使用以及提升推理速度。 正如其官方描述那样: 阅读全文
posted @ 2025-01-13 20:08 Big-Yellow-J 阅读(668) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示