02 2025 档案

模型训练和计算过程中的一些优化
摘要:优化 I/O 加载 主要是为了减少 CPU-GPU 之间的数据传输瓶颈,提升推理效率。DeepSeek 可能采用了以下几种 极致优化方案: 🔹 1. CPU-GPU 直接访问(Pinned Memory & Zero Copy) ✅ 问题:普通数据传输 • CPU 内存(系统 RAM)和 GPU 阅读全文

posted @ 2025-02-18 17:24 zhangkele 阅读(17) 评论(0) 推荐(0) 编辑

大模型计算和模型训练过程中-量化/稀疏计算 (Sparsity Pruning)技术的学习
摘要:在大模型计算(如深度学习模型)中,量化是一种用较低精度数据类型表示模型参数和激活值的技术。它可以带来以下主要收益: 1. **降低存储需求**: - 使用低精度数据表示(如 `int8` 而不是 `float32`)可以显著减少模型所需的存储空间。这对于在内存有限的设备(如移动设备、嵌入式系统)上部 阅读全文

posted @ 2025-02-18 16:04 zhangkele 阅读(42) 评论(0) 推荐(0) 编辑

FAISS 三种向量检索方式学习
摘要:FAISS(Facebook AI Similarity Search)是一个高效的向量检索库,特别适用于大规模高维数据的相似度搜索。它的核心原理是通过不同类型的索引结构来加速相似度搜索过程。三个基础索引类型是: 1. IndexFlatL2 2. IndexIVFFlat 3. IndexIVFP 阅读全文

posted @ 2025-02-09 23:43 zhangkele 阅读(214) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示