大模型推理框架

以下是目前比较流行的大模型推理框架:

1. vLLM

  • 特点:专注于高性能推理和服务的开源框架。核心创新在于PagedAttention技术,优化了注意力机制的内存使用效率,并通过连续批处理技术提升GPU利用率
  • 优势:支持多种量化方法,与OpenAI API兼容,与Hugging Face生态系统深度集成
  • 适用场景:适用于大批量Prompt输入且对推理速度要求高的场景

2. Text Generation Inference (TGI)

  • 特点:依赖HuggingFace模型,提供了一系列优化技术,如模型并行、张量并行和流水线并行等
  • 优势:本机支持HuggingFace模型,适合在多种硬件环境下进行高效推理
  • 适用场景:适合不需要为核心模型增加多个adapter的场景

3. TensorRT-LLM

  • 特点:由英伟达推出,提供了层融合、自回归模型的推理优化等技术
  • 优势:使用最新的优化技术将LLM模型转换为TensorRT Engines,推理时直接使用优化后的TensorRT Engines
  • 适用场景:适合需要高性能推理且对模型优化有较高要求的场景

4. MLC LLM

  • 特点:支持多种平台和硬件,包括AMD GPU、NVIDIA GPU、Apple GPU、Intel GPU、Linux/Win、macOS、Web浏览器、iOS/iPadOS、Android
  • 优势:可以部署到iOS和Android设备上,支持在浏览器上运行SD模型和LLM模型
  • 适用场景:适合在客户端(边缘计算)本地部署LLM,例如在Android或iPhone平台上

5. llama.cpp

  • 特点:结合模型int4量化,在CPU推理方面表现良好
  • 适用场景:适合在资源受限的设备上进行推理

6. DeepSpeed-MII

  • 特点:使用DeepSpeed库来部署LLM
  • 适用场景:适合需要利用DeepSpeed的强大功能进行模型部署的场景

7. Ray Serve

  • 特点:提供稳定的Pipeline和灵活的部署
  • 适用场景:适合更成熟的项目

8. Open LLM

  • 特点:为核心模型添加adapter并使用HuggingFace Agents,不完全依赖PyTorch
  • 适用场景:适合需要为核心模型添加adapter的场景

9. CTranslate2

  • 特点:可在CPU上进行推理
  • 适用场景:适合在CPU资源受限的环境中进行推理
这些推理框架各有特点和优势,企业和开发者可以根据具体需求和应用场景选择合适的框架。

posted on   ExplorerMan  阅读(37)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2020-02-12 grpc proto字段对应

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示