摘要: TigerBot-70b-4k-v4 推理部署 模型本地部署(基于HuggingFace) 根据实际测试,加载模型需要约129G显存,最低需要6张3090显卡(流水线并行) 如果使用vllm进行加速推理(张量并行),考虑8张3090显卡或者4张A100-40G(模型分割要求) 模型下载 截至目前,模 阅读全文
posted @ 2023-12-07 21:44 AlphaInf 阅读(6813) 评论(3) 推荐(72) 编辑