1 2 3 4 5 ··· 20 下一页
摘要: 现目前市面上主流大模型都是分步骤训练出来的: pre-train:让LLM具备初步的存储、记忆和理解知识的能力 post-train:让LLM更精准、聪明,能适配某些垂直领域的特定任务! 所以post-train其实更重要,那么业界最流行的post-train都有哪些做法了?https://arxi 阅读全文
posted @ 2025-03-09 11:40 第七子007 阅读(25) 评论(0) 推荐(0) 编辑
摘要: LLM在2年多前火了后,RAG也跟着火了,因其解决了当时LLM的一些缺陷问题: 可解释性:数据来自知识库,能找到出处 幻觉:最后一步LLM生成response的内容都来自语义相关的chunk,缩小了LLM的生成范围,能在一定程度上避免幻觉 时效性:一旦有新数据,加入知识库、向量数据库即可,不需要再微 阅读全文
posted @ 2025-03-07 22:42 第七子007 阅读(39) 评论(0) 推荐(0) 编辑
摘要: deepseek又整活了啊,2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention",核心是解决attention计算耗时耗算力的问题!NSA具体又是怎么做 阅读全文
posted @ 2025-02-27 15:09 第七子007 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 2025春节期间IT圈最火爆的莫过于deepseek了,R1模型利用reinforcement learning掀起了滔天巨浪,一时间deepseek无人不知,无人不晓!但其实和R1同一时间发布的还有kimi k1.5,也是通过强化学习提升reasoning性能的,但可能是因为deepseek做了部 阅读全文
posted @ 2025-02-24 12:22 第七子007 阅读(158) 评论(0) 推荐(0) 编辑
摘要: deepseek-R1比较创新的点就是reward函数了,其自创的GRPO方法,详解如下:https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本!幸运的是,GRPO的这个算法已经有人实现,并集成到huggingf 阅读全文
posted @ 2025-02-05 18:00 第七子007 阅读(1857) 评论(0) 推荐(2) 编辑
摘要: chatGPT3.5、4.0、4o这些版本发布后,因为效果相比以往的NLP产品比,确实有质的提升,所以引起了很大的轰动。但也有部分AI学术巨头吐槽说transformer架构根本不是真正的AGI,原理上讲本质就是个统计模型:通过海量训练数据的统计信息来计算next token的概率,并不具备真正的思 阅读全文
posted @ 2025-02-02 12:42 第七子007 阅读(4687) 评论(1) 推荐(1) 编辑
摘要: 这几天被deepseek刷屏了:凡是和AI沾边的博主,无一例外不介绍deepseek的!一时间deepseek热度蹭蹭上窜,风头无限,看的其他国产AI大模型厂商直瞪眼!deepseek是一家叫做幻方的量化投资公司出品,可谓是师出名门,这个大模型到底有啥独特之处了? 一个大模型的效果好不好,主要看以下 阅读全文
posted @ 2025-01-27 21:42 第七子007 阅读(2949) 评论(0) 推荐(0) 编辑
摘要: 1、众所周知,可商用的成熟大模型训练分四个步骤: pre-train:大量未标记的语料做auto-regression,此步骤初步完成LLM权重的赋值。经过此阶段的LLM,类似人类小学生的水平,还无法有针对性的回答问题; supervised Fine-tuning:用 {instruction,i 阅读全文
posted @ 2025-01-13 14:52 第七子007 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 这一轮爆火的AI热潮是被transformer架构点燃的, 根据scanling law的观点, transformer这个架构有个显著的特点:大力出奇迹!计算量C=6*ND,N是模型参数,D是token数。N越大,网络压缩、承载信息的能力越大,但是需要的token也就越多,需要的算力也越多,这就是 阅读全文
posted @ 2025-01-07 15:52 第七子007 阅读(587) 评论(0) 推荐(0) 编辑
摘要: 传统的机器学习,用的分类器或回归模型,诸如logistics regression/softmax、svm、naive bayes、decision tree、random forest、GBDT、xgboost等,最核心的要点就是要人工构造特征了。好的特征能让准确率、覆盖率等指标提升十几个~几十个 阅读全文
posted @ 2024-12-20 17:46 第七子007 阅读(433) 评论(0) 推荐(0) 编辑
1 2 3 4 5 ··· 20 下一页
点击右上角即可分享
微信分享提示