会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
2025年6月30日
LLM大模型:next token reasoning成为下个阶段LLM的训练范式?
摘要: 目前LLM的训练范式不外乎这么几步:pre-train、SFT、RL,每个步骤都有自己的作用,比如: pre-train:把训练预料的知识压缩到neural的结点 SFT:初步学会问答 RL:和人类的偏好对齐 经过上述三步骤后,LLM的效果会有很大提升,然鹅还是摆脱不了目前的一大困境:本质还是个st
阅读全文
posted @ 2025-06-30 14:52 第七子007
阅读(7)
评论(0)
推荐(0)
2025年6月13日
LLM大模型:reasoning model没有思考能力,大模型泡沫破灭?
摘要: 这轮AI热潮起于2022.10月chatGPT 3.5的发布,其智能程度颠覆了以往任何同类产品,一下就引爆了关注!后来持续迭代,又率先提出了COT的模式:在正式回答问题前先think一段,根据整个思考的过程再给出最终的答案,这就是o1;尽管LLM的效果是越来越好,但还是有人跳出来“唱反调”,吐槽LL
阅读全文
posted @ 2025-06-13 18:25 第七子007
阅读(50)
评论(0)
推荐(0)
SHAP:以淘宝展示广告点击率预估做可视化分析解释
摘要: 前两次用SHAP框架可视化解释了bitcoin price预测和credit fraud detection这种anomaly detection,今天继续以推荐系统为样本对SHAP的使用做可视化分析! 1、数据集还是来自天池:https://tianchi.aliyun.com/dataset/5
阅读全文
posted @ 2025-06-13 10:17 第七子007
阅读(22)
评论(0)
推荐(0)
2025年5月31日
SHAP:以credit card fraud detection为例做anomaly detection可视化分析解释
摘要: 之前做了bitcoin price预测的可视化解释,这次继续做个anomaly detection相关的业务,就用比较常见的信用卡欺诈检测啦,还是用天池上现成的数据集,如下:https://tianchi.aliyun.com/dataset/92665 这次用application_data来做测
阅读全文
posted @ 2025-05-31 23:39 第七子007
阅读(34)
评论(0)
推荐(0)
2025年5月29日
LLM大模型:Absolute Zero: Reinforced Self-play Reasoning with Zero Data 0数据做post train RL
摘要: RL的领域越来越炸裂了,近期又有团队开源了 Zero Data 做reinforcement learning的方法:在post train阶段,做RL时 Absolute Zero data,听名字是不是很炸裂啊!先来回顾一下LLM领域做RL的历史阶段: 最早是PPO/DPO等方式,需要人工标注数
阅读全文
posted @ 2025-05-29 18:07 第七子007
阅读(92)
评论(0)
推荐(0)
2025年5月27日
SHAP:以bitcoin price预测为例的机器学习算法可视化解析
摘要: 1、传统机器学习按照目标划分,无非就是两种:分类、回归;不论是哪种,对于业务部门来说都有一大“硬伤”:可解释性!本人以前在某厂数据运营部做数据相关工作,平日里一大痛点:需要给业务人员做各种解释!比如使用xgboost发现某个账号被盗用的风险较大,提交运营人员后,别人会反问:为啥这个账号风险大?总要给
阅读全文
posted @ 2025-05-27 22:54 第七子007
阅读(52)
评论(0)
推荐(0)
2025年5月6日
LLM大模型:Qwen3解析
摘要: 5.1除了deepseek-prover-v2发布,Qwen也发布了3版本,官方展示的性能对比测试如下: 既然是官方发布的,效果肯定比友商的好,否则没必要发布出来了!那么灵魂拷问又来了:这么好的性能是怎么来的?大模型性能决定要素: 算力:迭代次数多,性能明显好 数据:互联网高质量数据筛选 网络架构:
阅读全文
posted @ 2025-05-06 22:47 第七子007
阅读(785)
评论(0)
推荐(0)
2025年5月2日
LLM大模型: DeepSeek-Prover-V2浅析
摘要: 1、5.1假期,deepseek又整活了,不过这次并不是万众期待的R2通用推理模型,而是Prover-V2,主打 formal theorem proving in Lean 4,简单理解就是数学定理的证明,在几大数据集的测试结果如下: 所以现在大家最关心的是:这么好的效果,都是怎么做到的? 这次开
阅读全文
posted @ 2025-05-02 21:46 第七子007
阅读(221)
评论(0)
推荐(0)
2025年4月28日
LLM大模型:TTRL: Test-Time Reinforcement Learning分析
摘要: 1、现在大模型在pre-train完成后,肯定还要做post-train,主要目的是学会chat,并且对齐人类的偏好,主要方式就是SFT和RL,详见:https://www.cnblogs.com/theseventhson/p/18760256;做LLM,有三大要素:算力、算法、token数据了!
阅读全文
posted @ 2025-04-28 15:53 第七子007
阅读(190)
评论(0)
推荐(0)
2025年4月18日
抖音推荐算法部分模型概述
摘要: 抖音,一个世界级知名的app,全球拥有十亿级别的存量用户,其官方于近日发布了最核心的技术之一:推荐算法的部分模型,详见:https://95152.douyin.com/article/15358?enter_from=channel_page&channel=home 就其官方披露的信息看,抖音最
阅读全文
posted @ 2025-04-18 15:28 第七子007
阅读(155)
评论(0)
推荐(0)
下一页
公告