摘要: 使用Triton部署chatglm2-6b模型 一、技术介绍 NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。 支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Run 阅读全文
posted @ 2023-09-27 16:37 京东云开发者 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 本文通过一封618前的R2M(公司内部缓存组件,可以认为等同于Redis)告警,由浅入深的分析了该告警的直接原因与根本原因,并根据原因提出相应的解决方法,希望能够给大家在排查类似问题时提供相应的思路。 阅读全文
posted @ 2023-09-27 09:36 京东云开发者 阅读(945) 评论(1) 推荐(6) 编辑