01 2025 档案

LLM大模型：deepseek浅度解析(一)：V3的差异化

摘要：这几天被deepseek刷屏了：凡是和AI沾边的博主，无一例外不介绍deepseek的！一时间deepseek热度蹭蹭上窜，风头无限，看的其他国产AI大模型厂商直瞪眼！deepseek是一家叫做幻方的量化投资公司出品，可谓是师出名门，这个大模型到底有啥独特之处了？一个大模型的效果好不好，主要看以下阅读全文

posted @ 2025-01-27 21:42 第七子007 阅读(2597) 评论(0) 推荐(0) 编辑

LLM大模型：Process Reinforcement through Implicit Rewards：PRIME 强化学习模型分析，超过GPT-4o？

摘要：1、众所周知，可商用的成熟大模型训练分四个步骤： pre-train：大量未标记的语料做auto-regression，此步骤初步完成LLM权重的赋值。经过此阶段的LLM，类似人类小学生的水平，还无法有针对性的回答问题; supervised Fine-tuning：用 {instruction,i 阅读全文

posted @ 2025-01-13 14:52 第七子007 阅读(185) 评论(0) 推荐(0) 编辑

LLM大模型：Reinforcement Learning-强化学习中思维链中COT、TOT和GOT的前世今生

摘要：这一轮爆火的AI热潮是被transformer架构点燃的，根据scanling law的观点， transformer这个架构有个显著的特点：大力出奇迹！计算量C=6*ND，N是模型参数，D是token数。N越大，网络压缩、承载信息的能力越大，但是需要的token也就越多，需要的算力也越多，这就是阅读全文

posted @ 2025-01-07 15:52 第七子007 阅读(473) 评论(0) 推荐(0) 编辑

公告

昵称：第七子007
园龄： 4年8个月
粉丝： 578
关注： 7

+加关注

2025年2月

日

一

二

三

四

五

六

第七子007

01 2025 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论