2025 年 2月 14 日随笔档案 - 风雨中的小七

2025年2月14日

解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling

摘要：

春节前DeepSeek R1和Kimi1.5炸翻天了，之前大家推测的O1的实现路径，多数都集中在MCTS推理优化，以及STaR等样本自优化方案等等，结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling，也可以在RL。也算是Post Train阶段新的Scaling方向，几个核心Take Away包括阅读全文

posted @ 2025-02-14 20:35 风雨中的小七阅读(508) 评论(0) 推荐(0) 编辑

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

随笔档案 (114)

阅读排行榜

评论排行榜

最新评论

1. Re:解密Prompt系列37. RAG之前置决策何时联网的多种策略
@Tom123123123 恩恩同意，所以下一张就是多agent路由了，rag联网只是agent路由的一个简化场景...
--风雨中的小七
2. Re:解密Prompt系列37. RAG之前置决策何时联网的多种策略
将RAG作为Agent的一个Tool，由模型来决定Tool的调用，后续还可以加计算器等等很多插件，单RAG的应用场景很窄
--Tom123123123
3. Re:解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例
@Tom123123123 我们是公司层申请的和个人申请不一样的...
--风雨中的小七
4. Re:解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例
作者您好，Azure的GPT4是怎么申请的啊，能写个教程吗
--Tom123123123
5. Re:解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例
@Hekk丶感谢反馈找到问题了已经修复~...
--风雨中的小七

风雨中的小七

我的标签

合集 (7)

随笔档案 (114)

阅读排行榜

评论排行榜

推荐排行榜

最新评论