会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Liang-ml
博客园
首页
新随笔
联系
订阅
管理
2024年8月27日
LLM的轻量化推理:AirLLM
摘要: AirLLM是一种针对LLM的轻量级推理框架,通常用于优化和加速大模型的推理过程,可以允许70B的LLM在单个4GB的GPU上运行,无需量化、蒸馏、剪枝。 AirLLM是通过分层推理实现的上述功能,本质上是将LLM的每一层拆分出来,分别加载权重进行推理,在推理较大的LLM时会很慢。 环境配置 使用p
阅读全文
posted @ 2024-08-27 15:01 Liang-ml
阅读(702)
评论(0)
推荐(0)
编辑
公告