2024 年 6月 19 日随笔档案 - HuggingFace

2024年6月19日

摘要：我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为一种替代 PPO 的方法，RLOO 是一种新的在线 RLHF 训练算法，旨在使其更易于访问和实施。特别是， RLOO 需要的 GPU 内存更少，并且达到收敛所需的挂钟时间也更短。如下面的图表所示: 阅读全文

posted @ 2024-06-19 22:52 HuggingFace 阅读(269) 评论(0) 推荐(1) 编辑

公告

Hugging Face 官网

昵称： HuggingFace
园龄： 2年2个月
粉丝： 182
关注： 0

+加关注

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

Hugging Face 博客

The AI community building the future.

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论