2024 年 7月 1 日随笔档案 - HuggingFace

2024年7月1日

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

摘要： HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估 LLM 编程能力方面的有效性越来越多的担忧，主要问题是HumanEval 中的任务太简单，可能不能代表真实世界的编程任务。相比于 HumanEv 阅读全文

posted @ 2024-07-01 12:03 HuggingFace 阅读(1009) 评论(0) 推荐(0) 编辑

公告

Hugging Face 官网

昵称： HuggingFace
园龄： 2年1个月
粉丝： 181
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

Hugging Face 博客

The AI community building the future.

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论