运行模型对比 gemma:7b, llama2, mistral, qwen:7b

 

gemma:2b】

total duration: 1m5.2381509s
load duration: 530.9µs
prompt eval duration: 110.304ms
prompt eval rate: 0.00 tokens/s
eval count: 604 token(s)
eval duration: 1m5.126287s
eval rate: 9.27 tokens/s

 

gemma:7b】
total duration: 3m47.1115598s
load duration: 9.8098239s
prompt eval count: 110 token(s)
prompt eval duration: 12.228888s
prompt eval rate: 9.00 tokens/s
eval count: 573 token(s)
eval duration: 3m25.072638s
eval rate: 2.79 tokens/s

 

llama2
total duration: 4m34.6780371s
load duration: 4.9036352s
prompt eval count: 137 token(s)
prompt eval duration: 11.521429s
prompt eval rate: 11.89 tokens/s
eval count: 963 token(s)
eval duration: 4m18.252497s
eval rate: 3.73 tokens/s

 

【mistral】
total duration: 2m58.0946434s
load duration: 4.4304491s
prompt eval count: 129 token(s)
prompt eval duration: 11.605211s
prompt eval rate: 11.12 tokens/s
eval count: 626 token(s)
eval duration: 2m42.059441s
eval rate: 3.86 tokens/s

 

qwen:7b】
total duration: 1m0.2411658s
load duration: 1.04ms
prompt eval duration: 276.492ms
prompt eval rate: 0.00 tokens/s
eval count: 220 token(s)
eval duration: 59.96335s
eval rate: 3.67 tokens/s

 

gemma:7b vs llama2

总结来说,llama2运行在加载速度和prompt评估速率上有明显提升,但是由于处理的令牌总数增加导致整体评估阶段耗时增加,使得整个过程的总耗时延长。不过,在大规模处理任务中,提高单位时间内处理令牌的数量(prompt eval rate 和 eval rate)通常被视为性能改善的一个重要指标。

vs mistral
综合来看,这次运行的整体效率和单位时间内处理令牌的能力都有所提升,尤其是在总时长和整个评估阶段的处理速度上有显著改善。然而,处理的令牌总数较上次减少,可能反映了任务规模的变化或其他程序内部逻辑的调整。

vs qwen7b
综合分析,这次运行在加载速度和处理速度上表现优秀,特别是在处理少量令牌时的效率显著提高。然而,由于缺少prompt部分的具体令牌处理情况,对于prompt部分的性能评估无法给出明确结论。总体来看,如果目标是在短时间内高效处理较少数量的令牌,这次运行的表现是更好的。

 

Video:AI 新世代

Tool:Llama3 在线Gemma在线ChatAIonline

Link:https://www.cnblogs.com/farwish/p/18051582

posted on 2024-03-04 21:15  ercom  阅读(347)  评论(0编辑  收藏  举报