随笔分类 -  大模型

摘要:智能总结: 这篇文章深入探讨了如何通过微调技术来优化大语言模型(如 DeepSeek)的表现,使其在特定领域或任务中更具优势。文章首先解释了微调的必要性及其在特定领域中的应用场景,并将微调与长文本处理、知识库的使用进行对比,帮助读者理解何时选择微调。接着,文章详细介绍了微调的基本流程,包括选择预训练 阅读全文
posted @ 2025-02-28 16:04 雨梦山人 阅读(16) 评论(0) 推荐(0) 编辑
摘要:概述 Unsloth是一个支持Llama系列、DeepSeek R1系列更快速,更少占用内存的微调库。最近提供了DeepSeek-R1模型的复现与GRPO算法的高效实现,而GRPO算法是DeepSeek模型中最关键的RL算法,而Unsloth增强优化了GRPO算法,使其使用更少的huggingfac 阅读全文
posted @ 2025-02-10 11:39 雨梦山人 阅读(14224) 评论(3) 推荐(2) 编辑
摘要:最近国产AI大模型DeepSeek爆火出圈,登顶中美App Store下载榜,还在性能、性价比上碾压了ChatGPT和Google Gemini等硅谷巨头,直接杀入科技圈C位,成为现象级应用! 然而,不少小伙伴在使用的时候,经常会出现响应迟缓甚至宕机的情况👇 这可怎么办? 万幸的是,DeepSee 阅读全文
posted @ 2025-02-07 11:05 雨梦山人 阅读(26546) 评论(2) 推荐(2) 编辑
摘要:引言 大语言模型(LLM)正在重塑软件开发的范式。随着 ChatGPT、Claude 等产品的广泛应用,如何将 LLM 有效地集成到生产系统中已成为工程师们面临的重要挑战。今天咱们基于 Maxime Labonne(Liquid AI 训练后优化负责人)开发的顶尖 LLM 工程课程,系统性地介绍从模 阅读全文
posted @ 2025-01-22 17:56 雨梦山人 阅读(172) 评论(0) 推荐(0) 编辑
摘要:1. ChatGLM-6B ChatGLM-6B仓库地址:https://github.com/THUDM/ChatGLM-6B ChatGLM-6B/P-Tuning仓库地址:https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning 2、运行环境 阅读全文
posted @ 2024-07-17 10:31 雨梦山人 阅读(93) 评论(0) 推荐(0) 编辑
摘要:ChatGLM-6B 介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM 阅读全文
posted @ 2024-07-12 17:11 雨梦山人 阅读(115) 评论(0) 推荐(0) 编辑
摘要:探索如何将LLM转变成一个更加强大的信息提取工具 LLM不仅能够处理复杂的非结构化原始文本,还能将这些文本转化为结构化且易于查询的事实。在回顾一些关键概念之后,我们将重点介绍如何使用 OpenAI 的 GPT-3.5 Turbo 从原始文本数据(电商产品标题)中构建知识图谱。 毕竟大多数公司的数据中 阅读全文
posted @ 2024-07-03 16:41 雨梦山人 阅读(3420) 评论(0) 推荐(1) 编辑
摘要:1、为什么要进行大模型微调 微调的定义 大模型微调是利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。 微调的核心原因 定制化功能:微调的核心原因是赋予大模型更加定制化的功能。通用大模型虽然强大,但在特定领域可能表 阅读全文
posted @ 2024-06-17 09:21 雨梦山人 阅读(4255) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示