书生开源大模型训练营-第6讲-笔记
1、模型评测的Why, What How?为什么要做模型评测,评测什么,以及怎样评测。
2、模型评测的Why?
- 用户:可以知道那个模型好,便于选择
- 开发者:知道模型的能力边界,以便提升
3、What
- 知识、语言、推理
- 长文本生成、Agent工具的使用能力
- 情感、认知
- 垂直领域:如医疗
4、How
- 基座模型 VS 微调模型
- 主管评测 VS 客观评测
5、评测框架
- Stanford
- Berkeley
- HuggingFace
- 北京智源
6、OpenCompass:Meta唯一推荐
7、大模型评测面临的挑战
8、动手
a、安装
posted on 2024-02-19 16:46 littlesuccess 阅读(9) 评论(0) 编辑 收藏 举报