摘要:
LLaMA-Factory是一个整合了主流的各种高效训练微调技术、适配主流开源模型、功能丰富、适配性好的训练框架。 安装LLaMA Factory conda create -n llamafactory python=3.8.0 conda activate llamafactory git cl 阅读全文
摘要:
vLLM是一个快速且易于使用的LLM推理和服务库 vLLM的快速性体现在: 最先进的服务吞吐量 通过PagedAttention有效管理注意力机制KV的内存 连续的批次处理请求 使用CUDA/HIP图快速执行模型 量化:GPTQ、AWQ、INT4、INT8、FP8 CUDA内核优化,包括FlashA 阅读全文