关注过的 benchmarks
下面的内容和“如何设计一个好的 benchmark”无关,主要是在用别人的 benchmark 的时候,从“使用”上需要这个 benchmark 有什么东西
可以考虑关注某个 benchmark 的以下几点:
-
是否有训练集。还是单纯的一个测试集。
一个 benchmark 可能有很多不同 subtask,不同的 subtask 会有不同的难度。
-
是文本模态还是有文本视觉两个模态。
对于 GUI related 环境,OpenAI 坚持了视觉输入的技术路线。不过也有一些环境提供了对 “桌面/网页” 的文字描述。windows agent arena 这个环境中作者将视觉输入的要素标注了框线。
-
instruction 的数量 和 diversity。
例如三维数加法可以出几十万题,但是本质基本一样。也就是说,有些文章的 instruction 是通过 instruction template 生成出来的。
-
instruction 是否有 golden trajectory,以及 golden trajectory 是怎么被生成的。
例如来 textworld 中作者使用启发式方法写了 20k dfs 来生成 golden trajectory,也有的是人工写的。也有可能文章提供的 golden trajectory 就是完成任务的最短 action trace。
-
做 evaluation 的方法。
比如是对最终环境的结果是否满足“ mission completed ” 还是将我们的答案和 golden trajectory 进行文本匹配,计算 bleu score。注意 “检查环境是否满足 mission completed” 通常是一件比较耗时的事情。(ACL2024 best resource paper Appworld 提供的环境做 action 的执行也是很耗时的。)
operating system/GUI
https://arxiv.org/pdf/2409.08264 Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
https://arxiv.org/abs/2405.14573 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents
https://arxiv.org/pdf/2404.07972 OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
web navigation
https://arxiv.org/abs/2307.13854 WebArena: A Realistic Web Environment for Building Autonomous Agents
https://arxiv.org/abs/2207.01206 WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents
https://arxiv.org/pdf/2401.13919 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
emboddied
https://arxiv.org/abs/2411.00081 PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks
minecraft
https://arxiv.org/pdf/2410.07484 WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
agent task collection
https://arxiv.org/pdf/2406.04151 AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments
https://arxiv.org/pdf/2401.13178 AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
https://arxiv.org/abs/2412.14161 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
appendix
以下是 openai 和 anthropic 的 agent 工作。openai 的 product 经常反问。这点比较有意思。
https://openai.com/index/computer-using-agent/ CUA 的博客。
https://openai.com/index/operator-system-card/ operator system card
https://www.anthropic.com/news/developing-computer-use A 家进军 CUA 并有一定成果是在 2024-10,很早的。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律