会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deeplearningmachine
博客园
首页
新随笔
联系
管理
订阅
随笔- 31 文章- 0 评论- 1 阅读-
29643
2025年1月28日
DeepSeek-R1:开源Top推理模型的实现细节、使用与复现
摘要: 核心观点 ● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。 ● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。 ● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下的表现超过了Top模型,比直接在小模型上进行强化学习更好。 Dee
阅读全文
posted @ 2025-01-28 10:42 深度学习机器
阅读(3446)
评论(0)
推荐(0)
编辑
公告
昵称:
深度学习机器
园龄:
1年
粉丝:
2
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
我的标签
llm
(2)
vecror database
(1)
RAG
(1)
chat2db
(1)
随笔分类
AIGC(2)
RAG(21)
大语言模型(24)
深度学习(17)
随笔档案
2025年2月(1)
2025年1月(4)
2024年12月(3)
2024年11月(3)
2024年9月(1)
2024年8月(1)
2024年7月(4)
2024年6月(1)
2024年5月(2)
2024年4月(4)
2024年3月(7)
阅读排行榜
1. 开源RAG框架汇总(7681)
2. DeepSeek-R1:开源Top推理模型的实现细节、使用与复现(3446)
3. 大模型RAG应用开发之PDF解析工具对比(2976)
4. 【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取(2281)
5. LangGraph:基于图结构的大模型智能体开发框架(1839)
评论排行榜
1. 【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取(1)
最新评论
1. Re:【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取
有啥完整代码么
--HITzwx
点击右上角即可分享