2025 年 1月随笔档案 - AAA建材王师傅

DeepSeek-V3

摘要：一、与DeepSeek-v2比较 1. 架构和参数（Architecture and Parameters） DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构，共有6710亿个参数，每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架，但是

116

0

Byte Latent Transformer: Patches Scale Better Than Tokens 笔记

摘要：预告放假了写

7

0

Agent-Memory 概述

摘要：1. 结构化记忆生成 Chunks（块状记忆）：将文档分割成固定长度的连续文本段适合处理长上下文任务（如阅读理解）优点：简单易用，适合存储大量信息缺点：可能缺乏语义关联性 Knowledge Triples（知识三元组）：提取实体之间的语义关系，以 <头实体; 关系; 尾实体> 的形式表示

16

0

zz-w

01 2025 档案

公告

常用链接

随笔分类

随笔档案

文章分类

阅读排行榜

推荐排行榜