Fork me on GitHub

02 2025 档案

摘要:AI到AI通信:Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中,开发人员推出了 GibberLink,这是一种新颖的协议,可让人工智能语音助手使用针对机器而非人类优化的语言进行交 阅读全文
posted @ 2025-02-27 16:46 stardsd 阅读(19) 评论(0) 推荐(0) 编辑
摘要:Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S 阅读全文
posted @ 2025-02-27 14:35 stardsd 阅读(9) 评论(0) 推荐(0) 编辑
摘要:MCP全称是Model Context Protocol, 也就是”模型上下文协议”, 是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用(而不是AI模型),之所以强调这个,是因为很多人分不清楚大语言模型与大语言模型应用的差别。 那AI应用为什么需要MCP呢? 大部分大语言模型 阅读全文
posted @ 2025-02-26 14:58 stardsd 阅读(187) 评论(0) 推荐(0) 编辑
摘要:大模型一体机行业内幕 DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。 大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平 阅读全文
posted @ 2025-02-21 10:56 stardsd 阅读(429) 评论(0) 推荐(0) 编辑
摘要:GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文
posted @ 2025-02-21 09:42 stardsd 阅读(13) 评论(0) 推荐(0) 编辑
摘要:基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整 阅读全文
posted @ 2025-02-10 15:26 stardsd 阅读(141) 评论(0) 推荐(0) 编辑
摘要:在 DeepSeek 模型中,多头潜在注意力(Multi-Head Latent Attention,MLA) 是一种关键技术,旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键(Key)和值(Value)进行低秩联合压缩,显著减少了推理过程中的键值缓存(KV Cache),在 阅读全文
posted @ 2025-02-05 16:51 stardsd 阅读(1735) 评论(0) 推荐(0) 编辑