Loading

模型评测-书生浦语大模型实战营学习笔记7&大语言模型12

大语言模型学习-12.模型评测

书生浦语大模型实战营学习笔记7

视频教程特别像广告,所以这篇博客参考了很多其他内容给大家参考,主要是下面几个页面:

https://zhuanlan.zhihu.com/p/641416694
https://www.cnblogs.com/justLittleStar/p/17845341.html
https://zhuanlan.zhihu.com/p/682617717

模型的自动评测技术可以分为rule-based和model-based两大类:

  • rule-based方法:
    • benchmark以客观题为主,例如多选题,被测的LLM通过理解context/question,来指定最佳答案。解析LLM的response,与标准答案做对比
    • 计算metric(accuracy、rouge、bleu等)
  • model-based方法:
    • 裁判员模型(e.g. GPT-4、Claude、Expert Models/Reward models)
    • LLM Peer-examination

评价指标

rule-based:

  • BLEU、ROUGE、ROUGE-L、METEOR、CIDEr、CLEU(中文版BLEU)、ChrF、ChrF++
  • EM(Exact Match,问答系统)、F1(准确率、召回率)、F1α(准确率与召回率加权调和平均数)、MCC(二分类)、GPS(gender parity score)、MRR和NDCG(信息检索相关的Acc,归一化折损累积增益,是一种用于评估搜索引擎结果排序质量的方法。它衡量了搜索结果的相关性和排名顺序,通过对每个结果的相关性进行折扣,使排名靠前的结果对总分数的贡献更大。nDCG 的值在 0 到 1 之间,值越大表示排序质量越好)、Distinct(Distinct 是一种用于评估自然语言生成模型的评估方法,它衡量了生成文本中不同 n-gram 的数量和比例。
  • 代码评估:目前用的最多的是pass@k

基于模型的评估:

裁判员模型

  • GPT-4、Claude、Qwen-Max等 (产品APIs)
  • PandLM、Auto-J (tuned from LLM, like LLaMA)
  • Reward models (Ranking learning)

测评数据集

数据集 描述 评价指标 样例
MMLU MassiveMultitaskLanguageUnderstanding一个多任务数据集,由各种学科的多项选择题组成。涵盖STEM、人文、社科等领域。包括57个子任务,包括初等数学、美国历史、计算机科学、法律等等。 Accuracy Question: In 2016, about how many people in the United States were homeless?A. 55,000B. 550,000C. 5,500,000D. 55,000,000Answer: B
TriviaQA 阅读理解数据集,包含超过65万个问题-答案-证据三元组。其包括95K个问答对,由冷知识爱好者提供 + 独立收集的事实性文档撰写 EM(ExactMatch)F1 (word-level) (问题-答案-证据文档)
MATH 12500道数学题,每道包含step-by-step solution Accuracy
HumanEval HumanEval (Hand-Written Evaluation Set)一个手写的问题解决数据集,要求根据给定的问题和代码模板,生成正确的代码片段。包含164个高质量的问题,涵盖五种编程语言:Python, C++, Java, Go, 和 JavaScript。 pass@k
posted @ 2024-04-22 20:03  vanilla阿草  阅读(40)  评论(0编辑  收藏  举报