05 2023 档案

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

摘要：

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

RLHF是针对有用，无害，事实性等原则，把模型输出和人类偏好进行对齐的一种方案。以OpenAI为基础，本章会对比DeepMind, Anthropic在RLHF步骤中的异同，试图理解RLHF究竟做了啥阅读全文

posted @ 2023-05-23 07:35 风雨中的小七阅读(1085) 评论(0) 推荐(2) 编辑

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

随笔档案 (114)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:解密Prompt系列37. RAG之前置决策何时联网的多种策略
@Tom123123123 恩恩同意，所以下一张就是多agent路由了，rag联网只是agent路由的一个简化场景...
--风雨中的小七
2. Re:解密Prompt系列37. RAG之前置决策何时联网的多种策略
将RAG作为Agent的一个Tool，由模型来决定Tool的调用，后续还可以加计算器等等很多插件，单RAG的应用场景很窄
--Tom123123123
3. Re:解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例
@Tom123123123 我们是公司层申请的和个人申请不一样的...
--风雨中的小七
4. Re:解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例
作者您好，Azure的GPT4是怎么申请的啊，能写个教程吗
--Tom123123123
5. Re:解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例
@Hekk丶感谢反馈找到问题了已经修复~...
--风雨中的小七