随笔分类 -  LLM

摘要:AirLLM是一种针对LLM的轻量级推理框架,通常用于优化和加速大模型的推理过程,可以允许70B的LLM在单个4GB的GPU上运行,无需量化、蒸馏、剪枝。 AirLLM是通过分层推理实现的上述功能,本质上是将LLM的每一层拆分出来,分别加载权重进行推理,在推理较大的LLM时会很慢。 环境配置 使用p 阅读全文
posted @ 2024-08-27 15:01 Liang-ml 阅读(905) 评论(0) 推荐(0) 编辑
摘要:LLaMA-Factory是一个整合了主流的各种高效训练微调技术、适配主流开源模型、功能丰富、适配性好的训练框架。 安装LLaMA Factory conda create -n llamafactory python=3.8.0 conda activate llamafactory git cl 阅读全文
posted @ 2024-08-22 16:48 Liang-ml 阅读(602) 评论(0) 推荐(0) 编辑
摘要:vLLM是一个快速且易于使用的LLM推理和服务库 vLLM的快速性体现在: 最先进的服务吞吐量 通过PagedAttention有效管理注意力机制KV的内存 连续的批次处理请求 使用CUDA/HIP图快速执行模型 量化:GPTQ、AWQ、INT4、INT8、FP8 CUDA内核优化,包括FlashA 阅读全文
posted @ 2024-08-22 11:34 Liang-ml 阅读(746) 评论(0) 推荐(0) 编辑
摘要:详见 https://github.com/ggerganov/llama.cpp LLM部署工具llama.cpp llama.cpp 旨在使用最少的硬件资源实现在本地或云端上的最优性能的LLM推理部署,其具有以下特点 纯C/C++实现,无任何依赖项 支持x86架构的AVX、AVX2和AVX512 阅读全文
posted @ 2024-07-24 15:27 Liang-ml 阅读(847) 评论(0) 推荐(0) 编辑
摘要:常用的数据类型有FP64、FP32、FP16、BFLOAT16等,以及LLM量化用到的INT4、NF4、INT8、FP8 指数位长度提供范围,尾数位长度决定精度 TF32剩余的13位填充或未使用 FP64 FP64表示64位浮点数,通常为IEEE 754定义的双精度二进制浮点格式,由1位符号位、11 阅读全文
posted @ 2024-07-19 10:41 Liang-ml 阅读(654) 评论(0) 推荐(0) 编辑
摘要:链接地址: github: https://github.com/meta-llama/llama3 huggingface: https://huggingface.co/meta-llama metaAI: https://llama.meta.com/ Llama3是Meta于2024年4月1 阅读全文
posted @ 2024-05-14 17:52 Liang-ml 阅读(6235) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示