会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Lex个人随想乡
Attention before pay attention
博客园
首页
新随笔
联系
订阅
管理
随笔 - 76
文章 - 0
评论 - 0
阅读 -
52069
2025年2月15日
KV Cache:加速LLM推理的关键
摘要: 1. KV 缓存是什么? KV 缓存(KV Cache)是一种优化大语言模型(LLM, Large Language Models)推理速度的关键技术。最近爆火的DeepSeek,其首创的MLA技术,使得KV Cache降低了93%,在大语言模型的训练和推理上有效降低了对高性能GPU的性能要求(比如
阅读全文
posted @ 2025-02-15 02:18 LexLuc
阅读(116)
评论(0)
推荐(0)
编辑
<
2025年2月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1
2
3
4
5
6
7
8
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
s3
(2)
ec2
(2)
aws
(2)
文件对象
(2)
上传下载
(2)
sqs
(1)
ddb
(1)
共享
(1)
随笔分类
AI(7)
Algorithms(6)
Architecture(1)
Big Data(5)
Chatbot Implementation(3)
Cloud(6)
Computer Vision(3)
Digital Transformation(2)
Knowledge Graph(4)
Linux(5)
Ops(13)
Python Programming(10)
Scripts(4)
Statistical Machine Learning(4)
个人备忘(1)
随笔档案
2025年2月(2)
2025年1月(4)
2024年11月(1)
2024年10月(3)
2024年9月(2)
2024年8月(3)
2024年7月(1)
2024年6月(1)
2024年5月(1)
2023年11月(2)
2023年10月(1)
2023年9月(2)
2023年8月(1)
2023年7月(10)
2023年6月(1)
2023年5月(2)
2023年3月(5)
2023年2月(1)
2022年12月(1)
2022年11月(2)
2022年10月(1)
2022年8月(2)
2020年10月(1)
2019年4月(1)
2019年3月(4)
2019年2月(3)
2019年1月(5)
2018年12月(2)
2018年10月(3)
2018年9月(4)
2018年8月(3)
更多
阅读排行榜
1. FFT(快速傅里叶变换)算法详解(12306)
2. Debian 9 + Windows 10 双系统安装体验(4644)
3. 搭建 Digital Ocean 服务器(2754)
4. Shell 常用命令、基本用法总结(2644)
5. HBase Regions In Transition(RIT)问题解决思路及操作方法(2282)
推荐排行榜
1. 知识图谱构建流程(1)
2. FFT(快速傅里叶变换)算法详解(1)
点击右上角即可分享