2024 年 4月 16 日随笔档案 - ForHHeart - 博客园

2024年4月16日

Reinforcement Learning from Human Feedback(RLHF): TRPO, PPO, DPO

摘要： 0 Introduction Terminology

S

$S$ (state),

A

$A$ (action),

R

$R$ (reward)

τ

$\tau$ (trajectory) = (

s_{1}

$s_1$ ,

a_{1}

$a_1$ ,

r_{1}

$r_1$ ,

s_{2}

$s_2$ ,

a_{2}

$a_2$ ,

r_{2}

$r_2$ ,..., \(s 阅读全文

posted @ 2024-04-16 13:47 ForHHeart 阅读(34) 评论(0) 推荐(0) 编辑

公告

昵称： ForHHeart
园龄： 2年10个月
粉丝： 0
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

阅读排行榜