01 2025 档案
DeepSeek-V3
摘要:一、与DeepSeek-v2比较 1. 架构和参数(Architecture and Parameters) DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构,共有6710亿个参数,每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架,但是
Agent-Memory 概述
摘要:1. 结构化记忆生成 Chunks(块状记忆): 将文档分割成固定长度的连续文本段 适合处理长上下文任务(如阅读理解) 优点:简单易用,适合存储大量信息 缺点:可能缺乏语义关联性 Knowledge Triples(知识三元组): 提取实体之间的语义关系,以 <头实体; 关系; 尾实体> 的形式表示