摘要: 这一轮爆火的AI热潮是被transformer架构点燃的, 根据scanling law的观点, transformer这个架构有个显著的特点:大力出奇迹!计算量C=6*ND,N是模型参数,D是token数。N越大,网络压缩、承载信息的能力越大,但是需要的token也就越多,需要的算力也越多,这就是 阅读全文
posted @ 2025-01-07 15:52 第七子007 阅读(534) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示