摘要: LLaMA-Factory是一个整合了主流的各种高效训练微调技术、适配主流开源模型、功能丰富、适配性好的训练框架。 安装LLaMA Factory conda create -n llamafactory python=3.8.0 conda activate llamafactory git cl 阅读全文
posted @ 2024-08-22 16:48 Liang-ml 阅读(198) 评论(0) 推荐(0) 编辑
摘要: vLLM是一个快速且易于使用的LLM推理和服务库 vLLM的快速性体现在: 最先进的服务吞吐量 通过PagedAttention有效管理注意力机制KV的内存 连续的批次处理请求 使用CUDA/HIP图快速执行模型 量化:GPTQ、AWQ、INT4、INT8、FP8 CUDA内核优化,包括FlashA 阅读全文
posted @ 2024-08-22 11:34 Liang-ml 阅读(324) 评论(0) 推荐(0) 编辑