2023 年 11月 22 日随笔档案 - deephub

2023年11月22日

摘要：量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中，GPTQ在gpu上提供了惊人的性能。与非量化模型相比，该方法使用的VRAM几乎减少了3倍，同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从GPTQ中挤出更多性能的库。由于新的内核，它还经阅读全文

posted @ 2023-11-22 10:16 deephub 阅读(165) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告