摘要: 注:本文由 Gemini Deep Research 生成,是我在调研后续训练的 base model 选型所用 引言 大型语言模型(LLM)在包括代码生成在内的多个领域展现出变革性的潜力,有望提高开发人员的生产力并自动化软件开发生命周期的各个方面。随着越来越多的 LLM 具备生成代码的能力,客观且 阅读全文
posted @ 2025-04-09 16:47 zion03 阅读(1993) 评论(0) 推荐(0)
摘要: 碰到的问题 场景一:在使用 VS Code 代码补全插件 Continue(https://www.continue.dev) 的时候,配置了 CPT 后的 LLM,结果无法正常补全,chatbot 中输出的 markdown 格式也不稳定,有时候连基本的代码也会解析错误。 解决方案: 在 Cont 阅读全文
posted @ 2025-03-25 15:14 zion03 阅读(372) 评论(0) 推荐(0)
摘要: 之前训好的模型,推理服务是用 vllm 跑的,不过 vllm 会长期占用显存,在团队内资源紧张的情况下,不能长期启动服务。不巧的是时不时会需要访问这个服务,手动维护就很麻烦。 正好 Ollama 可以根据请求自动加载、释放模型,就打算把模型迁移到 Ollama 上进行推理。这里记录一下处理过程: 先 阅读全文
posted @ 2025-02-27 21:33 zion03 阅读(284) 评论(0) 推荐(0)
摘要: 在基于 Qwen2.5-coder 模型进行继续预训练(continual pre-trian)后,保存的模型权重,多了整整一倍(原始 Qwen2.5-coder 的 3b 模型是 5 个 GB,训练后保存的 safetensor 体积是 10 多个 GB)。刚训练完就发现这个问题了,由于用 vll 阅读全文
posted @ 2025-02-10 18:38 zion03 阅读(434) 评论(0) 推荐(0)
摘要: 最近打算基于 RAG 开源框架做一些小 demo,之前只用过个别框架,没有系统调研过,这里记录一下。 关注的一些点: 项目热度(GitHub Star) 社区活跃度(GitHub issues 数量) license(商用友好度) 技术栈(前后端) 项目名称 项目地址 license Star Is 阅读全文
posted @ 2024-12-30 16:16 zion03 阅读(375) 评论(0) 推荐(0)
摘要: 经常使用各种在线的、本地部署的 LLM API ,有个参数 temperature 基本都会被忽略,要么随手设置为 0.8(嗯,应该大部分人都是这么设置的吧...),要么直接用默认值。这个参数的基本功能也很明确: A lower LLM temperature value (close to 0) 阅读全文
posted @ 2024-12-19 14:57 zion03 阅读(1804) 评论(0) 推荐(0)
摘要: 由于要解决一些业务问题,需要将领域知识喂给大模型。之前只做过简单的 finetuning(在 GLM 的框架上跑了一些 lora,数据量也不大),但是现在要将整个细分工业领域的相关数据都收集起来训练,规模上比之前半手动构造的微调数据集要大了很多,调研了一圈,更适合在 pre-train 阶段去做训练 阅读全文
posted @ 2024-12-01 22:02 zion03 阅读(1566) 评论(0) 推荐(0)
摘要: 以 Qwen2.5-0.5B 模型为例,看一下具体都有哪些文件。 首先将 Hugging Face 上的模型拉下来 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B,如果模型太大的话,可以执行 git clone https://huggingfa 阅读全文
posted @ 2024-11-23 22:58 zion03 阅读(335) 评论(0) 推荐(0)
摘要: 上篇: 从零开始的 LLM: nanoGPT 学习笔记(1/2) 尝试了完整的训练的过程,nanoGPT 仓库中还有复现 GPT2 的代码,可惜对计算资源要求太高(基于 OpenWebText 数据集,8 卡 A100,训练 4 天),不是个人电脑玩的转了,只能跳过这一步,尝试后面的 finetun 阅读全文
posted @ 2024-11-17 12:17 zion03 阅读(223) 评论(0) 推荐(0)
摘要: 项目地址:nanoGPT 作者是 OpenAI 的元老人物 Andrej Karpathy,以非常通俗易懂的方式将 LLM 的 pre-train 娓娓道来,YouTube 上也有对应的视频:Let's build GPT: from scratch, in code, spelled out. 其 阅读全文
posted @ 2024-11-16 23:23 zion03 阅读(1074) 评论(0) 推荐(1)