因为是初步记录,以摘抄知识点为主。

1 LLM历史

 1.1 统计语言模型(SLM):主要建立在统计学习理论框架,通常使用链式法则建模句子序列。n-gram 语言模型:基于马尔科夫假设,当前词概率仅与前𝑛−1个词有关。

1.2 基于频率的估计方法 (最大似然估计):加一平滑(又称为Laplace smoothing );回退(back-off);插值(interpolation)。

1.3 神经语言模型(NLM):早期工作(MLP):单词映射到词向量,再由神经网络预测当前时刻词汇。

1.3.1 神经语言模型(NLM): ➢简化模型:Word2Vec ➢ 基本功能 NLP领域深度学习时代最重要的工作之一 ⁃ 给定文本数据,对于每个单词学习一个低维表示 ➢ 基于分布式语义的思想进行设计 ⁃ 词义=背景单词的语义 ➢ 不考虑窗口内单词的顺序 ⁃ 应用了简单的average pooling的策略 ➢ 充分考虑实践和效果 ⁃ 有很多的优化trick,速度快、效果稳定。

1.3.2预训练语言模型(PLM) ➢PLM:通过在大量语料上进行无监督预训练后,其可以在特定下游任务或领 域上微调并取得较好效果 ➢自回归语言模型:GPT,GPT-2 ➢自编码语言模型:BERT,RoBERTa。

 

2 大语言模型

➢定义:通常是指具有超大规模参数的预训练语言模型 ➢架构:主要为Transformer解码器架构 ➢训练:预训练(base model)、后训练(instruct model)

➢大语言模型预训练(Pre-training) ➢ 使用与下游任务无关的大规模数据进行模型参数的初始训练 ➢ 基于Transformer解码器架构,进行下一个词预测 ➢ 数据数量、数据质量都非常关键

➢大语言模型后训练(Post-Training) ➢指令微调(InstructionTuning) ➢ 使用输入与输出配对的指令数据对于模型进行微调 ➢ 提升模型通过问答形式进行任务求解的能力

➢大语言模型后训练(Post-Training) ➢人类对齐(HumanAlignment) ➢ 将大语言模型与人类的期望、需求以及价值观对齐 ➢ 基于人类反馈的强化学习对齐方法(RLHF)

 

扩展定律 ➢通过扩展参数规模、数据规模和计算算力,大语言模型的能力会出现显著提升 ➢扩展定律在本次大模型浪潮中起到了重要作用

KM扩展定律 ➢OpenAI 团队建立了神经语言模型性能与参数规模(𝑁)、数据规模(𝐷) 和计算算力(𝐶)之间的幂律关系

Chinchilla扩展定律 ➢DeepMind 团队于2022 年提出了另一种形式的扩展定律,旨在指导大语言模型充 分利用给定的算力资源优化训练

 ➢模型的语言建模损失可以进行下述分解 可约损失:真实分布和模型分布之间KL散度,可通过优化减少 不可约损失:真实数据分布的熵,无法通过优化减少 ➢扩展定律可能存在边际效益递减 ➢ 随着模型参数、数据数量的扩展,模型性能增益将逐渐减小 ➢ 目前开放数据已经接近枯竭,难以支持扩展定律的持续推进

➢可预测的扩展(PredictableScaling) ➢ 使用小模型性能去预估大模型的性能,或帮助超参数选择 ➢ 训练过程中使用模型早期性能来预估后续性能

 

涌现能力 ➢原始论文定义:“在小型模型中不存在、但在大模型中出现的能力” ➢模型扩展到一定规模时,特定任务性能突然出现显著跃升趋势,远超随机水平

涌现能力可能部分归因于评测设置 ➢本课程定义其为“代表性能力”,并不区分是否在小模型中存在

代表性能力 ➢指令遵循(InstructionFollowing) ➢大语言模型能够按照自然语言指令来执行对应的任务;➢上下文学习(In-contextLearning) ➢ 在提示中为语言模型提供自然语言指令和任务示例,无需显式梯度更新就能为测试样本生成 预期输出;➢逐步推理(Step-by-stepReasoning) ➢在提示中引入任务相关的中间推理步骤来加强复杂任务的求解,从而获得更可靠的答案

➢涌现能力与扩展定律的关系 ➢涌现能力和扩展定律是两种描述规模效应的度量方法

 

3. gpt和ds简介

DeepSeek 进行了重要的网络架构、训练算法、性能优化探索 ➢V1探索了scalinglaw分析(考虑了数据质量影响),用于预估超参数性能 ➢V2提出了MLA高效注意力机制,提升推理性能 ➢V2、V3都针对MoE架构提出了相关稳定性训练策略 ➢V3使用了MTP(多token预测)训练 ➢Math提出了PPO的改进算法GRPO ➢V3详细介绍Infrastructure的搭建方法,并提出了高效FP8训练方法

DeepSeek V3-Base ----冷启动SFT 推理RL(用于合成微调数据) ---- RFT&SFT( Base模型微调)----全场景RL (SFT模型RL )----DeepSeek R1