摘要: 1、有些模型比较大,推理时的效果还不错,但非常耗费计算资源;并且产生token的速度也很慢,大概1秒1个token(我的RAG在最后一步使用的secGPT-13B大概就是这个速度),一个问题回答完毕要耗费分钟级别的时间,用户直接抓狂,继续提升推理的速度! 大模型本质是大量的矩阵运算,想要提高效率,就 阅读全文
posted @ 2024-07-16 17:00 第七子007 阅读(908) 评论(0) 推荐(0) 编辑