摘要:
这是一个 DPO(Direct Preference Optimization)数据集 的示例,用于训练大语言模型根据人类偏好生成更优质的回答。下面我来解释一下每条数据中各个部分的作用: 📌 DPO 数据集结构说明 每条数据通常包含以下几个部分: task_category 作用:表示任务所属的类 阅读全文
posted @ 2026-02-10 01:47
SaTsuki26681534
阅读(4)
评论(0)
推荐(0)
摘要:
Parquet是一种为大规模数据分析设计的列式存储格式。在大模型训练中,它因其极高的读取效率和极佳的压缩比,成为处理海量文本、图像数据的首选。 为了让你快速抓住核心,我们先通过一个表格看它和行式格式(如CSV、JSON)的本质区别: 特性维度 Parquet(列式存储) CSV/JSON(行式存储) 阅读全文
posted @ 2026-02-10 01:13
SaTsuki26681534
阅读(8)
评论(0)
推荐(0)
摘要:
safetensors是一种专为存储大型模型权重而设计的安全、高效文件格式,在安全、速度、兼容性上远超传统的.pt/.pth格式,已成为开源社区共享模型权重的标准。 下面的表格能帮你快速了解两种格式的核心区别: 核心维度 Safetensors格式 (.safetensors) 传统PyTorch格 阅读全文
posted @ 2026-02-10 01:08
SaTsuki26681534
阅读(22)
评论(0)
推荐(0)
摘要:
大模型DPO(Direct Preference Optimization)是一种用于优化大型语言模型(LLM)的方法,旨在通过直接优化模型的偏好来提升其生成内容的质量。以下是DPO的核心要点: 目标 DPO的目标是让模型生成的内容更符合人类偏好,例如更安全、更有帮助或更符合特定风格。 核心思想 传 阅读全文
posted @ 2026-02-10 01:03
SaTsuki26681534
阅读(11)
评论(0)
推荐(0)
摘要:
和预训练脚本相比,多了指令微调数据集的格式处理部分。 预训练阶段的数据集是纯文本的,而指令微调数据集里包含user/assistant的角色信息 另外,在计算损失的时候,需要将生成结果只与数据集里的assistant回答部分进行计算,屏蔽user指令部分 import os import torch 阅读全文
posted @ 2026-02-10 00:55
SaTsuki26681534
阅读(8)
评论(0)
推荐(0)
摘要:
# 单卡在命令行运行 python mini_qwen_pt.py # 多卡在命令行运行 accelerate launch --config_file accelerate_config.yaml mini_qwen_pt.py # 多卡在后台运行 nohup accelerate launch 阅读全文
posted @ 2026-02-10 00:02
SaTsuki26681534
阅读(3)
评论(0)
推荐(0)

浙公网安备 33010602011771号