随笔分类 -  大语言模型

摘要:目录DeepSeek-V3 Technical Report解读TL;DR优势训练数据参数量Method架构MLA(Multi-Head Latent Attention)DeepSeekMoEMoEDeepSeekMoEMTP(Multi-Token Prediction)基建FP8训练部署Pre 阅读全文
posted @ 2025-02-02 19:08 fariver 阅读(702) 评论(0) 推荐(0) 编辑
摘要:DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models DriveVLM 时间:24.02 机构:Tsinghua University && Li Auto TL;DR 当前自动驾驶落地的主要 阅读全文
posted @ 2024-08-07 16:45 fariver 阅读(182) 评论(0) 推荐(0) 编辑
摘要:名称 KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models 时间:23.05 机构:Microsoft TL;DR 一种输入多模型信息的大语言模型,作者称之为多模型大语言模型(MLLM),可以图多 阅读全文
posted @ 2024-03-27 00:12 fariver 阅读(46) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示