01 2025 档案
摘要:这几天被deepseek刷屏了:凡是和AI沾边的博主,无一例外不介绍deepseek的!一时间deepseek热度蹭蹭上窜,风头无限,看的其他国产AI大模型厂商直瞪眼!deepseek是一家叫做幻方的量化投资公司出品,可谓是师出名门,这个大模型到底有啥独特之处了? 一个大模型的效果好不好,主要看以下
阅读全文
摘要:1、众所周知,可商用的成熟大模型训练分四个步骤: pre-train:大量未标记的语料做auto-regression,此步骤初步完成LLM权重的赋值。经过此阶段的LLM,类似人类小学生的水平,还无法有针对性的回答问题; supervised Fine-tuning:用 {instruction,i
阅读全文
摘要:这一轮爆火的AI热潮是被transformer架构点燃的, 根据scanling law的观点, transformer这个架构有个显著的特点:大力出奇迹!计算量C=6*ND,N是模型参数,D是token数。N越大,网络压缩、承载信息的能力越大,但是需要的token也就越多,需要的算力也越多,这就是
阅读全文