ExplorerMan

模型训练学习率设置

摘要：在大语言模型训练中，学习率的调整策略对模型的收敛速度和最终性能至关重要。以下是一些常用的学习率调整方法和建议： 1. 固定学习率（Constant Learning Rate）固定学习率是最简单的方法，学习率在整个训练过程中保持不变。这种方法适用于简单的任务或小规模模型，但在大规模模型训练中可能不阅读全文

posted @ 2025-02-13 11:45 ExplorerMan 阅读(517) 评论(0) 推荐(0)

大模型训练迭代轮次设置

摘要：在大模型训练中，迭代轮次（通常指Epoch数量）的设置取决于多种因素，包括数据集大小、模型复杂度、硬件资源以及训练目标等。以下是一些常见的设置和建议： 1. 基础设置小型数据集：如果数据集较小（如几千到几万个样本），通常可以设置较高的Epoch数量，例如10-50个Epoch。大型数据集：对于大阅读全文

posted @ 2025-02-13 11:37 ExplorerMan 阅读(990) 评论(0) 推荐(0)

大模型的token 和文字长度关系

摘要：在大语言模型中，Token 是文本的基本单位，用于将文本分解为模型能够处理的最小单元。Token 的计算方法和文字长度的换算比例会因语言和模型的分词策略不同而有所差异。以下是具体介绍： Token 的计算方法加载分词器：使用预训练的分词器，这些分词器已经学习了如何将文本转换为 Tokens。文本阅读全文

posted @ 2025-02-13 11:27 ExplorerMan 阅读(1022) 评论(0) 推荐(0)

大模型推理框架

摘要：以下是目前比较流行的大模型推理框架： 1. vLLM 特点：专注于高性能推理和服务的开源框架。核心创新在于PagedAttention技术，优化了注意力机制的内存使用效率，并通过连续批处理技术提升GPU利用率。优势：支持多种量化方法，与OpenAI API兼容，与Hugging Face生态系统深阅读全文

posted @ 2025-02-12 14:47 ExplorerMan 阅读(393) 评论(0) 推荐(0)

GraphRAG

摘要：微软年中开源 GraphRAG 是一个现象级事件，作为一个库而非端到端产品，能在短时间内获得大量关注，说明它确实解决了 RAG 的一些核心问题——这就是语义鸿沟。做搜索系统的人很早就在面临这样的麻烦，因为查询和答案之间并不总能保证可以匹配。当搜索系统升级到 RAG 之后，这样的问题被放大：搜索系统的阅读全文

posted @ 2025-02-12 11:48 ExplorerMan 阅读(44) 评论(0) 推荐(0)

RAG 引擎 RAGFlow

摘要： RAGFlow开源了一个RAG框架！RAGFlow ：一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠阅读全文

posted @ 2025-02-11 20:49 ExplorerMan 阅读(302) 评论(0) 推荐(0)

vLLM

摘要： ‌vLLM（Virtual Large Language Model）‌是一个用于优化大型语言模型（LLM）推理的高效系统。它的主要设计目标是通过减少计算开销和提高吞吐量，来加速LLM在推理阶段的性能‌1。技术特点和应用场景 vLLM具有以下核心特性： ‌高效内存管理‌：vLLM采用PagedAt 阅读全文

posted @ 2025-02-11 20:15 ExplorerMan 阅读(718) 评论(0) 推荐(0)

大模型在陌陌的推理与应用

摘要：导读本文将分享陌陌如何利用大模型技术革新其业务与研发流程。主要内容包括以下几个部分： 1. AI 应用范式更新 2. 大模型高效推理 3. 大模型应用平台 4. 未来展望 5. 总结 6. Q&A 分享嘉宾｜陈玉祥挚文集团算法工程专家编辑整理｜王文海内容校对｜李瑶出品社区｜DataFu 阅读全文

posted @ 2025-02-11 20:09 ExplorerMan 阅读(108) 评论(0) 推荐(0)

DeepSeek-V3 详解：深入探究下一代 AI 模型

摘要：如何使用 DeepSeek-V3：代码示例为了帮助您开始使用 DeepSeek-V3，这里有一些使用 Python 和Hugging Face Transformers 库的实际示例。安装所需的库首先，安装必要的库： pip install transformers torch 示例 1：使用阅读全文

posted @ 2025-02-11 16:20 ExplorerMan 阅读(893) 评论(0) 推荐(0)

关于 MoE 大模型负载均衡策略演进的回顾：坑点与经验教训

摘要：故事要从 GShard 说起——当时，人们意识到拥有数十亿甚至数万亿参数的模型可以通过某种形式的“稀疏化（sparsified）”来在保持高精度的同时加速训练。自那以后，我们见证了各种让人眼花缭乱的创新。本文将尝试把从 GShard 到 DeepSeek-V3 这一系列关键方案串联起来，看看每一次迭阅读全文

posted @ 2025-02-11 16:02 ExplorerMan 阅读(1053) 评论(0) 推荐(0)