【LLM训练】从零训练一个大模型有哪几个核心步骤?

【LLM训练】从零训练一个大模型有哪几个核心步骤?

⚠︎ 重要性:★★★


NLP Github 项目:


从零开始训练LLM需要如下4个核心步骤:

LLM的构建主要包含四个阶段:

  • 预训练
  • 有监督微调
  • 奖励建模
  • 强化学习

这四个阶段都需要不同规模数据集合以及不同类型的算法,会产出不同类型的模型,同时所需要的资源也有非常大的差别。

OpenAI 使用的大规模语言模型构建流程:

第 0 步:预训练基础大模型

目的:基于海量数据以“文字接龙”的形式构建基础语言模型。

语言建模和去噪自编码的输入输出对比:

第 1 步:有监督微调(SFT)

目的:人类引导“文字接龙”的方向。利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。

第 2 步:训练奖励模型

目的:为GPT请一个好老师。基于人类反馈训练的奖励模型可以很好的人类的偏好。从理论上来说,可以通过强化学习使用人类标注的反馈数据直接对模型进行微调。构建奖励模型(Reward Model),模拟人类的评估过程可以极大降低人类标注数据的时间和成本。奖励模型决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。

第 3 步:根据奖励模型进行强化学习

目的:AI 指导 AI,优化预训练模型。

使用奖励模型强化训练基础模型:


MLP 大模型高频面题汇总

NLP基础篇

BERT 模型面

LLMs 微调面

本文由mdnice多平台发布

posted @   青松^_^  阅读(150)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
点击右上角即可分享
微信分享提示