SaTsuki26681534

2026年2月10日

摘要：这是一个 DPO（Direct Preference Optimization）数据集的示例，用于训练大语言模型根据人类偏好生成更优质的回答。下面我来解释一下每条数据中各个部分的作用： 📌 DPO 数据集结构说明每条数据通常包含以下几个部分： task_category 作用：表示任务所属的类阅读全文

posted @ 2026-02-10 01:47 SaTsuki26681534 阅读(4) 评论(0) 推荐(0)

【大模型】parquet格式数据集

摘要： Parquet是一种为大规模数据分析设计的列式存储格式。在大模型训练中，它因其极高的读取效率和极佳的压缩比，成为处理海量文本、图像数据的首选。为了让你快速抓住核心，我们先通过一个表格看它和行式格式（如CSV、JSON）的本质区别：特性维度 Parquet（列式存储） CSV/JSON（行式存储）阅读全文

posted @ 2026-02-10 01:13 SaTsuki26681534 阅读(8) 评论(0) 推荐(0)

【大模型】safeTensors格式与pt/pth格式的比较

摘要： safetensors是一种专为存储大型模型权重而设计的安全、高效文件格式，在安全、速度、兼容性上远超传统的.pt/.pth格式，已成为开源社区共享模型权重的标准。下面的表格能帮你快速了解两种格式的核心区别：核心维度 Safetensors格式 (.safetensors) 传统PyTorch格阅读全文

posted @ 2026-02-10 01:08 SaTsuki26681534 阅读(22) 评论(0) 推荐(0)

【大模型扫盲】什么是DPO直接偏好优化

摘要：大模型DPO（Direct Preference Optimization）是一种用于优化大型语言模型（LLM）的方法，旨在通过直接优化模型的偏好来提升其生成内容的质量。以下是DPO的核心要点：目标 DPO的目标是让模型生成的内容更符合人类偏好，例如更安全、更有帮助或更符合特定风格。核心思想传阅读全文

posted @ 2026-02-10 01:03 SaTsuki26681534 阅读(11) 评论(0) 推荐(0)

【大模型】读代码：mini_qwen_sft qwen指令微调代码

摘要：和预训练脚本相比，多了指令微调数据集的格式处理部分。预训练阶段的数据集是纯文本的，而指令微调数据集里包含user/assistant的角色信息另外，在计算损失的时候，需要将生成结果只与数据集里的assistant回答部分进行计算，屏蔽user指令部分 import os import torch 阅读全文

posted @ 2026-02-10 00:55 SaTsuki26681534 阅读(8) 评论(0) 推荐(0)

【Linux】在命令行运行和在后台运行的区别

摘要： # 单卡在命令行运行 python mini_qwen_pt.py # 多卡在命令行运行 accelerate launch --config_file accelerate_config.yaml mini_qwen_pt.py # 多卡在后台运行 nohup accelerate launch 阅读全文

posted @ 2026-02-10 00:02 SaTsuki26681534 阅读(3) 评论(0) 推荐(0)

2026年2月9日

【大模型】读代码：mini_qwen_pt.py qwen模型预训练代码

摘要： import os import torch import matplotlib.pyplot as plt from itertools import chain # 作用：itertools.chain 用于将多个可迭代对象连接成一个扁平的迭代器。 # 在脚本中的用途：在预处理数据时，将多个分词阅读全文

posted @ 2026-02-09 23:46 SaTsuki26681534 阅读(3) 评论(0) 推荐(0)

2026年2月5日

【python】高级切片语法/多维张量索引

摘要：整体上下文 # 核心代码 pe[0, :, 0::2] = torch.sin(position * div_term) # even index pe[0, :, 1::2] = torch.cos(position * div_term) # odd index 语法详解 1. 多维张量索引语法阅读全文

posted @ 2026-02-05 21:48 SaTsuki26681534 阅读(8) 评论(0) 推荐(0)

【python】广播语法

摘要： Python中的广播机制详解什么是广播机制？广播（Broadcasting）是NumPy/PyTorch等科学计算库中用于处理不同形状数组之间算术运算的机制。它允许在不需要显式复制数据的情况下，对形状不同的数组进行逐元素运算。广播的核心原则广播遵循两个基本原则：维度对齐：从尾部（最右边）开阅读全文

posted @ 2026-02-05 21:42 SaTsuki26681534 阅读(4) 评论(0) 推荐(0)

2026年2月3日

【扫盲】大模型部署落地相关技术栈

摘要：根据最新的技术趋势和企业实践，我为你系统梳理当前大模型/智能体在生产环境落地部署的完整技术栈，涵盖模型层、推理层、服务层到应用层的全链路：一、模型层：优化与压缩技术 1. 模型量化技术（降低显存占用的核心手段）量化方案原理精度损失适用场景推荐硬件 RTN (Round-to-Neares 阅读全文

posted @ 2026-02-03 16:09 SaTsuki26681534 阅读(14) 评论(0) 推荐(0)

Loading

公告