2024 年 6月 18 日随笔档案 - ZacksTang

2024年6月18日

摘要： 8. 推理 server side batch是推理服务的标配（以提升server侧吞吐量为目的）. 测试llama-2-13B的量化性能, 目前测试结果比较理想的是vLLM + AWQ (batch) 和Transformer + AWQ (single)。最快的是tensorrtllm awq。阅读全文

posted @ 2024-06-18 16:18 ZacksTang 阅读(73) 评论(0) 推荐(0) 编辑

LLM学习笔记

摘要： 1. 评估榜单 1.1. C-Eval C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。 https://cevalbenchmark.com/static/leaderboard_zh.html?ref=nav.6aiq.com 阅读全文

posted @ 2024-06-18 16:17 ZacksTang 阅读(185) 评论(0) 推荐(0) 编辑

ZacksTang

公告