摘要: 前面介绍的推理优化方法都有缺陷: knowledge distillation:需要样本数据训练student,同时要大量算力更新student参数 vLLM:通过page attention,减少显存浪费,充分利用碎片化的显存,并未减少算力 以上两种推理优化的方式都有缺陷,为了弥补上述缺陷,需要新 阅读全文
posted @ 2024-08-03 21:13 第七子007 阅读(333) 评论(0) 推荐(0) 编辑