会员
T恤
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Big-Yellow-J
博客园
首页
新随笔
联系
订阅
管理
随笔 - 25
文章 - 1
评论 - 1
阅读 -
10227
[置顶]
Large Language Model模型微调--LoRA等
摘要: 主要对LLM模型微调方法进行介绍,以及部分微调方法代码实操。
阅读全文
posted @ 2024-04-14 14:44 Big-Yellow-J
阅读(10)
评论(0)
推荐(0)
2025年3月26日
Python进阶知识:多进程/多线程/装饰器
摘要: 本文写作于2025.3.20,恰好作者正好在外面实习,于此同时在实际工作中遇到这些知识点,因此就进行一个简短汇总方便后续回顾,内容同步更新(显示问题可以直接看):https://www.big-yellow-j.top/posts/2025/03/22/PythonThreading.html可以直
阅读全文
posted @ 2025-03-26 22:38 Big-Yellow-J
阅读(27)
评论(0)
推荐(0)
2025年3月2日
Kimi/DeepSeek最新论文MoBA与NSA阅读
摘要: From:https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sp
阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J
阅读(113)
评论(0)
推荐(0)
常见的各类LLM基座模型(GPT、DeepSeek、Qwen等)模型解析以及对比
摘要: From: https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总 只去对比整体框架,对所采用的激活函数,归一化处理,位置编码等参考: 1、位置编码:https://www.big-yellow-j.top/posts/2
阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J
阅读(857)
评论(0)
推荐(2)
深度学习常用的Attention操作(MHA/Casual Attention)以及内存优化管理(Flash Attention/Page Attention)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/17/Attention.html Attention操作以及内存优化管理 一、Attention操作 关于 Multi Head Attention网上有较多的解释了,这里主要记录如下几点 1、对于注意
阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J
阅读(263)
评论(0)
推荐(0)
2025年1月29日
深度学习基础理论————混合专家模型(MoE)/KV-cache
摘要: 1、混合专家模型(MoE) 参考HuggingFace中介绍:混合专家模型主要由两部分构成: 1、稀疏的MoE层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈
阅读全文
posted @ 2025-01-29 22:14 Big-Yellow-J
阅读(366)
评论(0)
推荐(0)
2025年1月24日
深度学习基础理论————CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码
摘要: 主要介绍在CV中常用的Backbone原理简易代码(代码以及原理经常更新),参考论文中的表格,对不同的任务所使用的backbone如下: 针对上面内容分为两块内容:1、基于卷积神经网络的CV Backbone:1.Resnet系列;2.Unet系列等;2、基于Transformer的 CV Back
阅读全文
posted @ 2025-01-24 17:44 Big-Yellow-J
阅读(299)
评论(0)
推荐(2)
2025年1月18日
机器学习基础原理————可解释性Shap Value原理及代码
摘要: 如果⼀个机器学习模型运⾏良好,为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢? 诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时,需要作出权衡:你是只想知道预测是什么?例如,客户流失的概率或某种药物对病⼈的疗效。还是想知道为什么做出这样的预测?这种情况下可能为了可解
阅读全文
posted @ 2025-01-18 11:47 Big-Yellow-J
阅读(491)
评论(0)
推荐(0)
机器学习基础原理————贝叶斯优化原理及代码实现
摘要: 本文通过结合如下论文以及blog: 1、贝叶斯优化研究综述:https://doi.org/10.13328/j.cnki.jos.005607. 2、高斯回归可视化:https://jgoertler.com/visual-exploration-gaussian-processes/ 3、贝叶斯
阅读全文
posted @ 2025-01-18 11:46 Big-Yellow-J
阅读(310)
评论(0)
推荐(0)
机器学习基础原理————可解释性LIME原理
摘要: More: https://www.big-yellow-j.top/ 如果⼀个机器学习模型运⾏良好,为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢? 诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时,需要作出权衡:你是只想知道预测是什么?例如,客户流失的概率或某种
阅读全文
posted @ 2025-01-18 11:37 Big-Yellow-J
阅读(101)
评论(0)
推荐(0)
2025年1月13日
深度学习基础理论————DeepSpeed
摘要: DeepSpeed原理 DeepSpeed 是由微软开发的一种深度学习优化库,专为高性能训练和推理而设计,尤其适用于大规模深度学习模型(如 GPT 系列、BERT 等)。它通过一系列技术和优化策略,帮助研究者和开发者高效利用硬件资源,实现快速训练、降低内存使用以及提升推理速度。 正如其官方描述那样:
阅读全文
posted @ 2025-01-13 20:08 Big-Yellow-J
阅读(668)
评论(0)
推荐(0)
下一页
公告
昵称:
Big-Yellow-J
园龄:
1年1个月
粉丝:
3
关注:
1
+加关注
<
2025年4月
>
日
一
二
三
四
五
六
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
最新随笔
1.Python进阶知识:多进程/多线程/装饰器
2.Kimi/DeepSeek最新论文MoBA与NSA阅读
3.常见的各类LLM基座模型(GPT、DeepSeek、Qwen等)模型解析以及对比
4.深度学习常用的Attention操作(MHA/Casual Attention)以及内存优化管理(Flash Attention/Page Attention)
5.深度学习基础理论————混合专家模型(MoE)/KV-cache
6.深度学习基础理论————CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码
7.机器学习基础原理————可解释性Shap Value原理及代码
8.机器学习基础原理————贝叶斯优化原理及代码实现
9.机器学习基础原理————可解释性LIME原理
10.深度学习基础理论————DeepSpeed
我的标签
深度学习
(9)
机器学习
(3)
Transformer
(2)
LLM
(2)
机器学习可解释性
(2)
python
(1)
LeetCode刷题
(1)
finetune
(1)
图像处理
(1)
图神经网络
(1)
更多
积分与排名
积分 - 10404
排名 - 119128
随笔分类
(12)
机器学习(4)
论文阅读笔记(1)
深度学习(6)
自然语言处理(1)
随笔档案
(25)
2025年3月(4)
2025年1月(8)
2024年12月(2)
2024年8月(1)
2024年4月(1)
2024年3月(1)
2024年2月(8)
文章档案
(1)
2024年2月(1)
阅读排行榜
1. 深度学习基础理论————分布式训练(模型并行/数据并行/流水线并行/张量并行)(1411)
2. 图神经网络基础理论及实操(1203)
3. 常见的各类LLM基座模型(GPT、DeepSeek、Qwen等)模型解析以及对比(857)
4. 深度学习基础理论————DeepSpeed(667)
5. 图像识别算法--VGG16(594)
推荐排行榜
1. 常见的各类LLM基座模型(GPT、DeepSeek、Qwen等)模型解析以及对比(2)
2. 深度学习基础理论————CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码(2)
3. 深度学习基础理论————学习率优化方法(AdaGrad/RMSprop/Adam/Warm-UP)(1)
点击右上角即可分享