摘要: 最近,开放 LLM 排行榜 迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP,它们都使用了 EleutherAI Harness 的原始实现。一眼望去,我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)!我们对此进行了深 阅读全文
posted @ 2024-01-15 23:09 HuggingFace 阅读(465) 评论(0) 推荐(0) 编辑