亲爱的,外面没有别人,请出来晒晒|

AAA建材王师傅

园龄:2年6个月粉丝:4关注:1

02 2025 档案

使用 TRL 训练Reward Model奖励模型
摘要:训练过程 在此示例中,将微调“distilroberta-base”模型。 该formatting_func函数将指令与所选和拒绝的响应相结合,创建两个新字符串。这些字符串被标记化,成为奖励模型的输入,该模型根据这些示例学习区分好响应和坏响应。损失函数的设计方式是最大化所选和拒绝响应的分数之间的差异
42
0
0
Tokenizer
摘要:一、思维导图 二、subword(子词)粒度 在很多情况下,既不希望将文本切分成单独的词(太大),也不想将其切分成单个字符(太小),而是希望得到介于词和字符之间的子词单元。这就引入了 subword(子词)粒度的分词方法。本文重点介绍这一部分。 2.1 WordPiece 在BERT时代,WordP
14
0
0
DeepSeek LLM
摘要:作者前言: DeepSeek系列现在非常火,笔者决定主要梳理DeepSeekzui最重要的四代版本: DeepSeek-LLM; DeepSeek-V2; DeepSeek-V3; DeepSeek-R1 敬请期待。 一、背景动机 开源社区的关注点:LLaMA 之后,开源社区主要关注训练固定规模的高
59
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起