会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风雨中的小七
博客园
首页
新随笔
联系
订阅
管理
随笔 - 114
文章 - 0
评论 - 95
阅读 -
25万
05 2023 档案
解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析
摘要:
RLHF是针对有用,无害,事实性等原则,把模型输出和人类偏好进行对齐的一种方案。以OpenAI为基础,本章会对比DeepMind, Anthropic在RLHF步骤中的异同,试图理解RLHF究竟做了啥
阅读全文
posted @
2023-05-23 07:35
风雨中的小七
阅读(1085)
评论(0)
推荐(2)
编辑
<
2025年2月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1
2
3
4
5
6
7
8
我的标签
prompt
(49)
deep learning
(20)
Machine Learning
(11)
CausalInference
(10)
预训练模型
(9)
Embeddinig
(7)
NER
(6)
CTR
(6)
HTE
(5)
小样本
(5)
更多
合集
(7)
DecryptPrompt(49)
小样本利器(5)
预训练手册(9)
中文NER的那些事(7)
无所不能的Embedding(7)
CTR学习笔记(6)
因果推断(9)
随笔档案
(114)
2025年2月(2)
2025年1月(2)
2024年12月(2)
2024年11月(2)
2024年10月(2)
2024年9月(3)
2024年8月(2)
2024年7月(2)
2024年6月(2)
2024年5月(3)
2024年4月(1)
2024年3月(2)
2024年2月(1)
2024年1月(2)
2023年12月(2)
2023年11月(1)
2023年10月(3)
2023年9月(2)
2023年8月(1)
2023年7月(3)
2023年6月(2)
2023年5月(1)
2023年4月(2)
2023年3月(2)
2023年2月(2)
2023年1月(2)
2022年11月(1)
2022年10月(2)
2022年9月(1)
2022年8月(2)
2022年7月(1)
2022年6月(2)
2022年5月(1)
2022年3月(4)
2021年12月(1)
2021年11月(2)
2021年9月(1)
2021年8月(1)
2021年7月(1)
2021年5月(1)
2021年4月(1)
2021年2月(2)
2020年12月(1)
2020年11月(1)
2020年10月(1)
2020年9月(1)
2020年8月(1)
2020年6月(2)
2020年5月(2)
2020年4月(2)
2020年3月(3)
2020年2月(2)
2019年12月(1)
2019年11月(1)
2019年10月(4)
2019年7月(2)
2019年6月(1)
2019年2月(2)
2018年7月(2)
2018年6月(2)
2018年5月(1)
2018年4月(1)
2018年3月(2)
2018年2月(2)
2018年1月(2)
更多
阅读排行榜
1. 中文NER的那些事儿1. Bert-Bilstm-CRF基线模型详解&代码实现(21409)
2. AB实验的高端玩法系列1 - AB实验人群定向/个体效果差异/HTE/Uplift Model 论文github收藏(14640)
3. AB实验的高端玩法系列2 - 更敏感的AB实验, CUPED!(12167)
4. AB实验人群定向HTE模型4 - Double Machine Learning(11226)
5. AB实验人群定向HTE模型1 - Causal Tree(8998)
评论排行榜
1. 中文NER的那些事儿1. Bert-Bilstm-CRF基线模型详解&代码实现(15)
2. 中文NER的那些事儿3. SoftLexicon等词表增强详解&代码实现(12)
3. 中文NER的那些事儿4. 数据增强在NER的尝试(8)
4. 解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla(7)
5. AB实验的高端玩法系列4- 实验渗透低?用户未被触达?CACE/LATE(7)
推荐排行榜
1. 解密prompt系列39. RAG之借助LLM优化精排环节(3)
2. 中文NER的那些事儿3. SoftLexicon等词表增强详解&代码实现(3)
3. 打分排序系统漫谈3 - 贝叶斯更新/平均(3)
4. 解密Prompt系列17. LLM对齐方案再升级 WizardLM & BackTranslation & SELF-ALIGN(2)
5. 解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus(2)
最新评论
1. Re:解密Prompt系列37. RAG之前置决策何时联网的多种策略
@Tom123123123 恩恩同意,所以下一张就是多agent路由了,rag联网只是agent路由的一个简化场景...
--风雨中的小七
2. Re:解密Prompt系列37. RAG之前置决策何时联网的多种策略
将RAG作为Agent的一个Tool,由模型来决定Tool的调用,后续还可以加计算器等等很多插件,单RAG的应用场景很窄
--Tom123123123
3. Re:解密prompt系列35. 标准化Prompt进行时! DSPy论文串烧和代码示例
@Tom123123123 我们是公司层申请的和个人申请不一样的...
--风雨中的小七
4. Re:解密prompt系列35. 标准化Prompt进行时! DSPy论文串烧和代码示例
作者您好,Azure的GPT4是怎么申请的啊,能写个教程吗
--Tom123123123
5. Re:解密prompt系列35. 标准化Prompt进行时! DSPy论文串烧和代码示例
@Hekk丶 感谢反馈找到问题了已经修复~...
--风雨中的小七
点击右上角即可分享