摘要: 大模型通用化能力评测 公开评测集 个性化测试集 基于业务 指定任务 分类,计算准确率、精确率(被预测为正确的中有多少实际是正确的,场景:避免误报,比如医生诊疗)、召回率(应该是正确中有多少被召回了,场景:避免漏报,比如信用卡欺诈)、F1。 文本翻译或总结使用常见指标,BLEU、ROUGE。 大模型自 阅读全文
posted @ 2024-10-18 18:56 一大碗小米粥 阅读(31) 评论(0) 推荐(0) 编辑