运行模型对比 gemma:7b, llama2, mistral, qwen:7b

【gemma:2b】

total duration: 1m5.2381509s
load duration: 530.9µs
prompt eval duration: 110.304ms
prompt eval rate: 0.00 tokens/s
eval count: 604 token(s)
eval duration: 1m5.126287s
eval rate: 9.27 tokens/s

【gemma:7b】
total duration: 3m47.1115598s
load duration: 9.8098239s
prompt eval count: 110 token(s)
prompt eval duration: 12.228888s
prompt eval rate: 9.00 tokens/s
eval count: 573 token(s)
eval duration: 3m25.072638s
eval rate: 2.79 tokens/s

【llama2】
total duration: 4m34.6780371s
load duration: 4.9036352s
prompt eval count: 137 token(s)
prompt eval duration: 11.521429s
prompt eval rate: 11.89 tokens/s
eval count: 963 token(s)
eval duration: 4m18.252497s
eval rate: 3.73 tokens/s

【mistral】
total duration: 2m58.0946434s
load duration: 4.4304491s
prompt eval count: 129 token(s)
prompt eval duration: 11.605211s
prompt eval rate: 11.12 tokens/s
eval count: 626 token(s)
eval duration: 2m42.059441s
eval rate: 3.86 tokens/s

【qwen:7b】
total duration: 1m0.2411658s
load duration: 1.04ms
prompt eval duration: 276.492ms
prompt eval rate: 0.00 tokens/s
eval count: 220 token(s)
eval duration: 59.96335s
eval rate: 3.67 tokens/s

gemma:7b vs llama2

总结来说，llama2运行在加载速度和prompt评估速率上有明显提升，但是由于处理的令牌总数增加导致整体评估阶段耗时增加，使得整个过程的总耗时延长。不过，在大规模处理任务中，提高单位时间内处理令牌的数量（prompt eval rate 和 eval rate）通常被视为性能改善的一个重要指标。

vs mistral
综合来看，这次运行的整体效率和单位时间内处理令牌的能力都有所提升，尤其是在总时长和整个评估阶段的处理速度上有显著改善。然而，处理的令牌总数较上次减少，可能反映了任务规模的变化或其他程序内部逻辑的调整。

vs qwen7b
综合分析，这次运行在加载速度和处理速度上表现优秀，特别是在处理少量令牌时的效率显著提高。然而，由于缺少prompt部分的具体令牌处理情况，对于prompt部分的性能评估无法给出明确结论。总体来看，如果目标是在短时间内高效处理较少数量的令牌，这次运行的表现是更好的。

Video：AI 新世代

Tool：Llama3 在线、Gemma在线、ChatAIonline

Link：https://www.cnblogs.com/farwish/p/18051582

posted on 2024-03-04 21:15 ercom 阅读(347) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

博客园

运行模型对比 gemma:7b, llama2, mistral, qwen:7b

导航