2024 年 1月 31 日随笔档案 - mengrennwpu - 博客园

随笔- 159 文章- 1 评论- 35 阅读- 44万

2024年1月31日

LLM面面观之RLHF平替算法DPO

摘要：

LLM面面观之RLHF平替算法DPO

此文是本qiang~针对大语言模型的DPO算法的整理，包括原理、流程及部分源码。阅读全文

posted @ 2024-01-31 12:37 mengrennwpu 阅读(3508) 评论(1) 推荐(0) 编辑

公告

昵称： mengrennwpu
园龄： 11年1个月
粉丝： 56
关注： 44

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

合集

随笔分类

随笔档案

文章分类

Transformer(1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:LLM论文研读: GraphRAG的替代者LightRAG
感谢分享，英文太难懂了
--切可拉夫斯基
2. Re:LLM应用实战：当KBQA集成LLM
@mengrennwpu 2.2 解析和溯源部分是通过cypher query？...
--wweii
3. Re:LLM应用实战：当KBQA集成LLM
@wweii 你好，抱歉，回复较晚.... sim表示的是相似度两次调用大模型是两个prompt，其中：对齐校准：使用一个prompt, 主要是从问题中抽取对应的三元组关系解析和溯源：不涉及调用...
--mengrennwpu
4. Re:LLM应用实战: 文档问答系统Kotaemon-1. 简介及部署实践
@字助之您好，不好意思，现在才答复... env文件中的内容不需要都填~ 我的配置信息如下： ` settings for OpenAI OPENAI_API_BASE= OPENAI_API_KE...
--mengrennwpu
5. Re:LLM应用实战：当KBQA集成LLM
请教一下：对齐模块里的sim是指什么？两次llm调用中间的步骤（对齐校准，解析和溯源）没看明白怎么实现的，是生成部分prompt整合起来吗？还是通过什么包实现的？可以更详细介绍一下吗？...
--wweii