摘要:
写在前面 事实证明,在部分情况下,依然有开启deepspeed的必要性 这是上一篇文章,讲述使用双卡/8卡3090微调llama2-70B/13B模型 - AlphaInf - 博客园 (cnblogs.com) 但这一篇文章,存在下面的几个问题: 如果训练的数据的seq_len过长,那么很有可能出 阅读全文
摘要:
写在前面 VLLM框架升级了! 0.3.0版本,拥有更高的推理速度(实测解析input的速度+40%),支持S-LoRA(一个主模型外套多个LoRA模型),很值得升级。 本篇文章将会记录升级过程中遇到的坑爹事情 硬件环境 主板:PCIE 4.0 x16 GPU:8x 3090 内存: DDR4 76 阅读全文