会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
随笔 - 200
文章 - 0
评论 - 103
阅读 -
55万
2024年8月3日
LLM大模型:推理优化-PTQ int8量化
摘要: 前面介绍的推理优化方法都有缺陷: knowledge distillation:需要样本数据训练student,同时要大量算力更新student参数 vLLM:通过page attention,减少显存浪费,充分利用碎片化的显存,并未减少算力 以上两种推理优化的方式都有缺陷,为了弥补上述缺陷,需要新
阅读全文
posted @ 2024-08-03 21:13 第七子007
阅读(703)
评论(0)
推荐(0)
编辑
公告
昵称:
第七子007
园龄:
4年9个月
粉丝:
585
关注:
7
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔分类
android逆向(31)
windows原理和逆向(17)
x86硬件架构(12)
xxx逆向和外挂(15)
操作系统原理(34)
大模型实战(39)
后台开发(17)
计算机网络(4)
漏洞挖掘和复现(5)
渗透测试(17)
随笔档案
2025年3月(2)
2025年2月(4)
2025年1月(3)
2024年12月(3)
2024年11月(2)
2024年10月(3)
2024年9月(3)
2024年8月(2)
2024年7月(8)
2024年6月(8)
2024年5月(3)
2022年10月(1)
2022年8月(14)
2022年7月(2)
2022年6月(2)
2022年5月(2)
2022年4月(2)
2022年3月(9)
2022年2月(8)
2022年1月(7)
2021年12月(9)
2021年11月(3)
2021年10月(1)
2021年9月(1)
2021年8月(3)
2021年7月(5)
2021年6月(5)
2021年5月(6)
2021年4月(8)
2021年3月(6)
2021年2月(10)
2021年1月(7)
2020年12月(7)
2020年11月(6)
2020年10月(4)
2020年9月(7)
2020年8月(2)
2020年7月(10)
2020年6月(12)
更多
阅读排行榜
1. VMP加壳(二):VMP的虚拟化原理(17462)
2. tls1.3协议实战(一)---client hello和server hello解析(17169)
3. android逆向奇技淫巧十六:frida hook java和so层函数常用脚本(12972)
4. 撸站思路总结(12607)
5. android逆向奇技淫巧十一:unidbg调用so层函数(10690)
评论排行榜
1. android逆向奇技淫巧二十四:frida rpc调用生成加密字段(九)(23)
2. android逆向奇技淫巧二十二:ida栈回溯加密算法跟踪(未完待续)(七)(5)
3. android逆向奇技淫巧十八:x音so层代码花指令防护分析(三)(5)
4. LLM大模型: RAG的上下文语义聚类retrieval — GraphaRAG(4)
5. android逆向奇技淫巧二十三:自己写app调用x音关键so(未完待续)(八)(4)
推荐排行榜
1. android逆向奇技淫巧二十四:frida rpc调用生成加密字段(九)(3)
2. android逆向奇技淫巧二十一:ida反反调试&加密算法跟踪(未完待续)(六)(3)
3. android逆向奇技淫巧十九:unidbg模拟执行和trace x音so代码(四)(3)
4. android逆向奇技淫巧十六:frida hook java和so层函数常用脚本(3)
5. android逆向奇技淫巧十一:unidbg调用so层函数(3)
最新评论
1. Re:LLM大模型:deepseek浅度解析(二):R1的GRPO原理
写很好,下次别写了
--nidemingzi
2. Re:LLM大模型: RAG两大核心利器: M3E-embedding和bge-rerank
每次看这些流程图都觉得赏心悦目
--z00631536
3. Re:LLM大模型: RAG的langchain+向量数据库实现和评估方案
这么专业的博客,爱了爱了
--z00631536
4. Re:LLM大模型: RAG的langchain+向量数据库实现和评估方案
讲得很深入,很感谢
--z00631536
5. Re:(xxxx)九:SQLite3的db数据库解密(一)句柄位置查找
太强了orz
--a7dd
点击右上角即可分享