2023 年 12月 7 日随笔档案 - AlphaInf

2023年12月7日

8卡3090GPU云服务器上采用VLLM部署中文llama2-70b模型及OpenAI格式接口

摘要： TigerBot-70b-4k-v4 推理部署模型本地部署（基于HuggingFace) 根据实际测试，加载模型需要约129G显存，最低需要6张3090显卡（流水线并行）如果使用vllm进行加速推理（张量并行），考虑8张3090显卡或者4张A100-40G（模型分割要求）模型下载截至目前，模阅读全文

posted @ 2023-12-07 21:44 AlphaInf 阅读(7175) 评论(3) 推荐(75) 编辑

$\mathit{AlphaINF}$

跑得快，不一定赢；稳如老狗，才能长久。

公告