2025 年 2月随笔档案 - stardsd

AI-to-AI Communication：Gibberlink

摘要：AI到AI通信：Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中，开发人员推出了 GibberLink，这是一种新颖的协议，可让人工智能语音助手使用针对机器而非人类优化的语言进行交阅读全文

posted @ 2025-02-27 16:46 stardsd 阅读(19) 评论(0) 推荐(0) 编辑

Mamba详细介绍和RNN、Transformer的架构可视化对比

摘要：Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm，人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba（一种状态空间模型）。 Mamba: Linear-Time Sequence Modeling with S 阅读全文

posted @ 2025-02-27 14:35 stardsd 阅读(9) 评论(0) 推荐(0) 编辑

大模型Agent中的MCP协议

摘要：MCP全称是Model Context Protocol，也就是”模型上下文协议”，是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用（而不是AI模型），之所以强调这个，是因为很多人分不清楚大语言模型与大语言模型应用的差别。那AI应用为什么需要MCP呢？大部分大语言模型阅读全文

posted @ 2025-02-26 14:58 stardsd 阅读(187) 评论(0) 推荐(0) 编辑

大模型硬件&模型选型指南

摘要：大模型一体机行业内幕 DeepSeek大模型一体机特点：私有化部署、交付容易、价格低廉，适合内网IT改造和CIO们的创新选择，也是目前被疯抢的原因。大模型一体机从功能上要分ABC三类：A类：主要是硬件就是机头+AI卡，组成的纯纯的AI硬件服务器。B类：在A类的技术上加上Deepseek模型和开发平阅读全文

posted @ 2025-02-21 10:56 stardsd 阅读(429) 评论(0) 推荐(0) 编辑

一些LLM评估测试用例（中英文版）

摘要：GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文

posted @ 2025-02-21 09:42 stardsd 阅读(13) 评论(0) 推荐(0) 编辑

大模型训练中的数据并行（DP）、流水线并行（PP）和模型并行（MP）

摘要：基本数据并行（DP）在训练模型时，不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上，当模型参数超过 14 亿时，使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例，每个设备都要存储完整阅读全文

posted @ 2025-02-10 15:26 stardsd 阅读(141) 评论(0) 推荐(0) 编辑

多头潜在注意力（Multi-Head Latent Attention，MLA）

摘要：在 DeepSeek 模型中，多头潜在注意力（Multi-Head Latent Attention，MLA）是一种关键技术，旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键（Key）和值（Value）进行低秩联合压缩，显著减少了推理过程中的键值缓存（KV Cache），在阅读全文

posted @ 2025-02-05 16:51 stardsd 阅读(1735) 评论(0) 推荐(0) 编辑

赏月斋

慎终如始宁静致远

02 2025 档案

公告

赏月斋

慎终如始 宁静致远

02 2025 档案

公告

慎终如始宁静致远