大模型评测方法

大模型通用化能力评测

公开评测集
个性化测试集

基于业务

指定任务
- 分类，计算准确率、精确率（被预测为正确的中有多少实际是正确的，场景：避免误报，比如医生诊疗）、召回率（应该是正确中有多少被召回了，场景：避免漏报，比如信用卡欺诈）、F1。
- 文本翻译或总结使用常见指标，BLEU、ROUGE。
大模型自己评估
- 标准：回答是否偏题、内容丰富度是否够丰富、逻辑是否正确、语意是否通顺、如果是书信问题格式是否正确、表达是否有冗余或者重复、是否遵循多轮的逻辑、回答的知识点是否有遗漏等等。
  给模型打分
用户反馈
专家评估

广告文案

一致性（品牌调性、幻觉）：GSB（good same bad）。
社区风格
多样性：BLEU越低越好。

https://developer.baidu.com/article/details/3321542
https://help.aliyun.com/zh/pai/use-cases/best-practices-for-llm-evaluation
https://developer.baidu.com/article/details/3321542
https://www.woshipm.com/share/6077830.html
https://www.53ai.com/news/zhinengyingxiao/2024090207186.html

posted @ 2024-10-18 18:56 一大碗小米粥阅读(223) 评论(0) 收藏举报

刷新页面返回顶部