AlphaInf - 博客园

2026年1月16日

摘要：本地化OutLine部署小记写在前面最近在研究有什么好用的在线云文档工具，而且要能够本地化部署的。经过了一系列的研究，最终选用了这个outline。但是，官方的文档十分地不友好，需要做的配置项过多，包括但不限于：官方的docker-compose没法直接拉起来用。其本身并没有用户管理的系阅读全文

posted @ 2026-01-16 18:51 AlphaInf 阅读(353) 评论(1) 推荐(4)

2025年9月3日

关于磁盘对拷的一系列trick

摘要：关于LVM分区 LVM分区有一大好处，可以随意地进行大小的扩大或减小，这对于大量使用磁盘对拷机的情形下十分有利（从一个小磁盘拷贝到一个大磁盘，然后再扩大物理磁盘的大小）但是，LVM分区结构较为复杂，有若干层的虚拟，故设置起来比一般的分区要复杂。如何缩小物理分区的大小部分对拷机会跳过为空的扇区，阅读全文

posted @ 2025-09-03 17:11 AlphaInf 阅读(42) 评论(0) 推荐(2)

2025年8月26日

关于大模型系统吞吐量计算的方法

摘要：基本概念及计算公式 flops：指完成该任务所需的总和浮点计算次数对于一个transformer架构的模型而言，使用改一个参数量为m的模型，计算n个token所需的算力flops通常可以近似为\(2 \times m \times n\)。其中常数2由一次乘法和一次加法分别贡献。具体细节可见下文阅读全文

posted @ 2025-08-26 19:31 AlphaInf 阅读(743) 评论(0) 推荐(2)

2024年6月15日

git submodule小记

摘要：这是一篇记录git submodule中存在的坑的文档引用一个模块的命令 git submodule add http://your-submodule-url.com/ local/path 这个命令可以将一个子模块添加到当前的主仓库中（注意，这样添加的是最新版的）运行该命令的路径，为主仓库的阅读全文

posted @ 2024-06-15 21:07 AlphaInf 阅读(175) 评论(0) 推荐(3)

2024年6月2日

给vllm添加热添加lora的功能

摘要：写在前面原生vllm并不支持热添加lora，但是考虑到微调机微调后，需要在不停机的情况下传递lora，于是我们需要增加一个逻辑修改VLLM包中的vllm/entrypoints/openai/api_server 1 from pydantic import Bas 2 3 class AddL 阅读全文

posted @ 2024-06-02 15:21 AlphaInf 阅读(1072) 评论(0) 推荐(10)

2024年2月2日

基于Deepspeed实现LLaMA-13B或70B模型的微调

摘要：写在前面事实证明，在部分情况下，依然有开启deepspeed的必要性这是上一篇文章，讲述使用双卡/8卡3090微调llama2-70B/13B模型 - AlphaInf - 博客园 (cnblogs.com) 但这一篇文章，存在下面的几个问题：如果训练的数据的seq_len过长，那么很有可能出阅读全文

posted @ 2024-02-02 19:00 AlphaInf 阅读(8373) 评论(2) 推荐(81)

基于vllm 0.3.0部署 llama2-70B模型

摘要：写在前面 VLLM框架升级了！ 0.3.0版本，拥有更高的推理速度（实测解析input的速度+40%），支持S-LoRA（一个主模型外套多个LoRA模型），很值得升级。本篇文章将会记录升级过程中遇到的坑爹事情硬件环境主板：PCIE 4.0 x16 GPU：8x 3090 内存： DDR4 76 阅读全文

posted @ 2024-02-02 01:30 AlphaInf 阅读(2253) 评论(0) 推荐(23)

2023年12月23日

基于TigerBot-13b训练其函数调用能力

摘要：写在前面原生的tigerbot似乎并不支持函数调用，于是我来支持一下数据集我在huggingface上找了个英文的数据集 https://huggingface.co/datasets/sadmoseby/sample-function-call 这里面包含了1k组的函数调用，这个数据集的特点阅读全文

posted @ 2023-12-23 16:01 AlphaInf 阅读(209) 评论(0) 推荐(6)

2023年12月10日

使用双卡/8卡3090微调llama2-70B/13B模型

摘要：写在前面本篇博文将会教大家如何在消费级的设备（或者各种超级便宜的洋垃圾上）实现13B/70B等无法在单张消费级显卡上加载（但可以在一台机器上的多张卡上加载）的模型的微调。由于绝大部分做实验，仅要求实现推理，或者在微调时没有资源上到全量/13B+级别的真·大模型的微调，没有涉及到将一个模型放在多张阅读全文

posted @ 2023-12-10 14:26 AlphaInf 阅读(16240) 评论(4) 推荐(152)

2023年12月7日

8卡3090GPU云服务器上采用VLLM部署中文llama2-70b模型及OpenAI格式接口

摘要： TigerBot-70b-4k-v4 推理部署模型本地部署（基于HuggingFace) 根据实际测试，加载模型需要约129G显存，最低需要6张3090显卡（流水线并行）如果使用vllm进行加速推理（张量并行），考虑8张3090显卡或者4张A100-40G（模型分割要求）模型下载截至目前，模阅读全文

posted @ 2023-12-07 21:44 AlphaInf 阅读(11061) 评论(3) 推荐(115)

2023年9月14日

Llama2模型预训练，推理与微调测试

摘要：官方环境要求（推理、微调）：本次部署使用单卡A100-40G显卡。部署虚拟环境创建： conda create -n test python=3.10.9 conda activate test #启动虚拟环境拉取 Llama2-Chinese git clone https://githu 阅读全文

posted @ 2023-09-14 18:07 AlphaInf 阅读(3052) 评论(0) 推荐(46)

GLM-130B 部署 - 8*3090-24G

摘要：官方文档镜像要求A100-40G-8卡硬件配置：软件配置： 1.准备由于恒源云暂时缺少硬件资源，此次部署使用8*3090-24G配置（需要量化int8）：注意镜像选择，pytorch版本选择1.13，不要选择2.0，2.0会产生不兼容的情况。同时需要注意扩容，否则模型存放不够空间创建实阅读全文

posted @ 2023-09-14 17:52 AlphaInf 阅读(673) 评论(0) 推荐(14)

OpenBuddy-LLaMA2-70B的三种部署方式

摘要：根据实际测试，加载模型需要130G显存，最低需要4张A100*40G显卡。 1.基于Transformers库推理：首先安装最新版本的transformers： git clone https://github.com/huggingface/transformers.git cd transfo 阅读全文

posted @ 2023-09-14 17:33 AlphaInf 阅读(4657) 评论(1) 推荐(50)

2023年6月11日

强化学习及过程监督学习笔记

摘要：写在前面笔者将在这篇文章中，写下有关过程监督，反馈对齐，奖励模型，和数据构造相关的论文的笔记。论文主要来自Openai的论文。问题坑奖励模型是如何输出精确的标记的？在解决方案的每个标记后做出标量预测（具体细节？）。预训练是怎么把知识注入进模型的，然后如何激活出这些知识论文挖坑列表基于过阅读全文

posted @ 2023-06-11 23:31 AlphaInf 阅读(754) 评论(0) 推荐(12)

基于80C51单片机的出租车计费器设计

摘要：写在前面本文将详细讲解如何在Proteus中，使用80C51单片机，编写汇编程序，实现出租车计费器，实现实时速度显示，行使里程统计及费用统计，以及自动的清零。该题包含两个输入和三个输出，其中一个输入是车轮转动的更新信号，每更新一次代表车轮转了一圈，另一个输入信号是费用计费/清零输入按钮。而输出是阅读全文

posted @ 2023-06-11 12:31 AlphaInf 阅读(647) 评论(1) 推荐(16)

2023年5月6日

chatglm-6b云端微调

摘要：下载依赖 pip install rouge_chinese nltk jieba datasets 下载训练数据集(示例) ADGEN 数据集任务为根据输入（content）生成一段广告词（summary）。 { "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫阅读全文

posted @ 2023-05-06 10:05 AlphaInf 阅读(406) 评论(0) 推荐(10)

chatglm-6b法律名词数据训练

摘要：整体流程于上一份微调文件基本一致，此份是详细备份及关键说明： 1.处理文件处理好法律名词解释为json文件的格式，其中prompt column为 content，response column 为summary，如下：（如果KEY不是content-summary的形式，也可修改train.s 阅读全文

posted @ 2023-05-06 09:58 AlphaInf 阅读(1598) 评论(0) 推荐(22)

2023年4月9日

ChatGLM-6B云服务器部署（以恒源云为例）

摘要：写在前面： ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数，使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。由于其对显存硬件要求较高（详见下图），对于硬件配置较低的使用者不太阅读全文

posted @ 2023-04-09 14:31 AlphaInf 阅读(1706) 评论(2) 推荐(21)

2023年4月4日

如何使用OpenAI Fine-tuning API微调GPT-3模型

摘要： https://platform.openai.com/docs/guides/fine-tuning（官方文档）当我们使用语言模型时候，往往需要给多个例子供ai参考，才能给出更为准确的回答，这种方法费时费力。而通过微调（Fine-tuning）能够把原始模型打造成更加适合你的任务需求的模型。阅读全文

posted @ 2023-04-04 13:21 AlphaInf 阅读(2714) 评论(1) 推荐(31)

2023年3月30日

算法设计与分析 Assignment 1(第一章)

摘要：什么是算法？它有什么特点? 算法是一组规则或过程，用于解决特定问题或完成特定任务。算法通常包括一系列的步骤和操作，可以将输入数据转换为输出数据。算法可以应用于各种领域，如计算机科学、数学、工程等，用于解决计算、优化、搜索、排序、加密等问题。算法有以下几个特点：精确性：算法必须准确无误地描述每一个阅读全文

posted @ 2023-03-30 20:29 AlphaInf 阅读(303) 评论(0) 推荐(4)

$\mathit{AlphaINF}$

跑得快，不一定赢；稳如老狗，才能长久。

公告