Bert变体--Roberta

Roberta

论文地址：https://arxiv.org/pdf/1907.11692.pdf

Static vs. Dynamic Masking

Roberta使用动态Mask。

Bert在预处理训练数据时，每个样本会进行一次随机的mask，后续的每个训练步都采用这次mask，实际上就是每个epoch是重复的，被称为静态mask。Roberta在预处理时没有进行mask，而是在每次向模型提供输入时进行随机mask，这意味着mask是变化的、动态的。

Model Input Format and Next Sentence Prediction

Roberta去除了 NSP 任务，更改输入为 FULL-SENTENCES

Bert为了捕捉句子之间的关系，使用了NSP任务进行预训练。论文中对输入与NSP任务设置了下面的两组实验：

使用NSP：
SEGMENT-PAIR+NSP: 输入为连续的两个段落（Bert）
SENTENCE-PAIR+NSP: 输入为连续的两个句子（会提升bs，以达到和SEGMENT-PAIR相同token数量）

放弃NSP：
FULL-SENTENCES: 输入为连续的句子，可以跨Doc （Roberta）
DOC-SENTENCES: 输入为连续的句子，不能跨Doc （会略微提升bs，以达到和FULL-SENTENCES相同token数量）

large batches，more dataset， pretrain longer

更大 Batch size

更多数据，更多epoch

byte-level BPE

Bert使用 wordpiece（BPE的一种），用 unicode characters 作为最小子词单元。
Roberta使用 byte-level BPE， bytes 作为最小子词单元

posted @ 2023-04-17 23:38 shiiiilong 阅读(83) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Bert变体--Deberta

· NLP中数据增强

· 预训练模型之Roberta

· 论文阅读-RoBERTa

· RoBERTa 和 ALBERT

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： shiiiilong
园龄： 1年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

shiiiilong

Bert变体--Roberta

Roberta

Static vs. Dynamic Masking

Model Input Format and Next Sentence Prediction

large batches，more dataset， pretrain longer

byte-level BPE

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜