亲爱的,外面没有别人,请出来晒晒|

AAA建材王师傅

园龄:2年6个月粉丝:4关注:1

01 2025 档案

DeepSeek-V3
摘要:一、与DeepSeek-v2比较 1. 架构和参数(Architecture and Parameters) DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构,共有6710亿个参数,每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架,但是
116
0
0
Agent-Memory 概述
摘要:1. 结构化记忆生成 Chunks(块状记忆): 将文档分割成固定长度的连续文本段 适合处理长上下文任务(如阅读理解) 优点:简单易用,适合存储大量信息 缺点:可能缺乏语义关联性 Knowledge Triples(知识三元组): 提取实体之间的语义关系,以 <头实体; 关系; 尾实体> 的形式表示
16
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起