摘要:
8. 推理 server side batch是推理服务的标配(以提升server侧吞吐量为目的). 测试llama-2-13B的量化性能, 目前测试结果比较理想的是vLLM + AWQ (batch) 和Transformer + AWQ (single)。最快的是tensorrtllm awq。 阅读全文
摘要:
1. 评估榜单 1.1. C-Eval C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。 https://cevalbenchmark.com/static/leaderboard_zh.html?ref=nav.6aiq.com 阅读全文