随笔分类 - 大模型
摘要:AI到AI通信:Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中,开发人员推出了 GibberLink,这是一种新颖的协议,可让人工智能语音助手使用针对机器而非人类优化的语言进行交
阅读全文
摘要:Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S
阅读全文
摘要:MCP全称是Model Context Protocol, 也就是”模型上下文协议”, 是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用(而不是AI模型),之所以强调这个,是因为很多人分不清楚大语言模型与大语言模型应用的差别。 那AI应用为什么需要MCP呢? 大部分大语言模型
阅读全文
摘要:大模型一体机行业内幕 DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。 大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平
阅读全文
摘要:GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi
阅读全文
摘要:基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整
阅读全文
摘要:在 DeepSeek 模型中,多头潜在注意力(Multi-Head Latent Attention,MLA) 是一种关键技术,旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键(Key)和值(Value)进行低秩联合压缩,显著减少了推理过程中的键值缓存(KV Cache),在
阅读全文
摘要:看到DeepSeek-V3使用了多token预测(Multi-token Prediction, MTP)技术,该技术原始论文是由Meta 发在ICML 2024的一篇Poster。 论文: [2404.19737] Better & Faster Large Language Models via
阅读全文
摘要:Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图:通用 AGI 系统的功能框图。概念模型由以下部分组成:(1)核心框架、体现,提供与世界接口和交
阅读全文
摘要:类型 主要功能 在LLMs中的实现方法 感官记忆 短暂存储感官信息以供认知系统访问。 缓冲输入/输出系统;感官输入的锁存机制;仿生感官记忆技术。 作为一种缓冲机制,允许认知处理组件在不同速度下工作而不丢失信息。 过滤信息(例如,通过注意机制)以供长期存储。 在线记忆 暂时存储活跃信息以支持认知处理。
阅读全文
摘要:符号嵌入问题(Symbol Grounding Problem)是认知科学、心灵哲学和人工智能中的一个关键问题。它探讨的是符号(或词语)是如何在一个系统中获得意义的。换句话说,抽象符号(如单词或概念)是如何代表现实世界中的对象、行为或经验的? 关键概念 符号表示:指的是将意义编码为抽象符号的理念,例
阅读全文
摘要:空间思考:多模态大型语言模型如何看待、记忆和回忆空间 VSI-Bench:我们引入了一个高质量的基准,用于评估 MLLM 的 3D、基于视频的视觉空间智能 评估:我们在开源和闭源 MLLM 上对 VSI-Bench 进行了评估,发现 MLLM 表现出有竞争力的(尽管不如人类)视觉空间智能。 语言分析
阅读全文