2024 年 8月 27 日随笔档案 - Liang-ml

2024年8月27日

摘要： AirLLM是一种针对LLM的轻量级推理框架，通常用于优化和加速大模型的推理过程，可以允许70B的LLM在单个4GB的GPU上运行，无需量化、蒸馏、剪枝。 AirLLM是通过分层推理实现的上述功能，本质上是将LLM的每一层拆分出来，分别加载权重进行推理，在推理较大的LLM时会很慢。环境配置使用p 阅读全文

posted @ 2024-08-27 15:01 Liang-ml 阅读(702) 评论(0) 推荐(0) 编辑

Liang-ml

公告