摘要:
设计你的自动评估任务 这是 自动评估基准 系列文章的第二篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 选择数据集 做评估时,你可以选择现有的数据集 (参考 一些评估数据集 页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据 阅读全文
![自动评估基准 | 设计你的自动评估任务](https://img2024.cnblogs.com/blog/3075972/202412/3075972-20241226210943983-1945719925.png)
摘要:
基础概念 这是 自动评估基准 系列文章的第一篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 注:本文内容与我写的 通用评估博客 存在部分重叠 什么是自动评估基准? 自动化基准测试通常按照以下方式工作:你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明 阅读全文
![自动评估基准 | 基础概念](https://img2024.cnblogs.com/blog/3075972/202412/3075972-20241226135810465-1468488812.png)