关注过的 benchmarks

下面的内容和“如何设计一个好的 benchmark”无关,主要是在用别人的 benchmark 的时候,从“使用”上需要这个 benchmark 有什么东西

可以考虑关注某个 benchmark 的以下几点:

  1. 是否有训练集。还是单纯的一个测试集。

    一个 benchmark 可能有很多不同 subtask,不同的 subtask 会有不同的难度。

  2. 是文本模态还是有文本视觉两个模态。

    对于 GUI related 环境,OpenAI 坚持了视觉输入的技术路线。不过也有一些环境提供了对 “桌面/网页” 的文字描述。windows agent arena 这个环境中作者将视觉输入的要素标注了框线。

  3. instruction 的数量 和 diversity

    例如三维数加法可以出几十万题,但是本质基本一样。也就是说,有些文章的 instruction 是通过 instruction template 生成出来的。

  4. instruction 是否有 golden trajectory,以及 golden trajectory 是怎么被生成的。

    例如来 textworld 中作者使用启发式方法写了 20k dfs 来生成 golden trajectory,也有的是人工写的。也有可能文章提供的 golden trajectory 就是完成任务的最短 action trace。

  5. 做 evaluation 的方法。

    比如是对最终环境的结果是否满足“ mission completed ” 还是将我们的答案和 golden trajectory 进行文本匹配,计算 bleu score。注意 “检查环境是否满足 mission completed” 通常是一件比较耗时的事情。(ACL2024 best resource paper Appworld 提供的环境做 action 的执行也是很耗时的。)

operating system/GUI

https://arxiv.org/pdf/2409.08264 Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

https://arxiv.org/abs/2405.14573 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

https://arxiv.org/pdf/2404.07972 OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

web navigation

https://arxiv.org/abs/2307.13854 WebArena: A Realistic Web Environment for Building Autonomous Agents

https://arxiv.org/abs/2207.01206 WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents

https://arxiv.org/pdf/2401.13919 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

emboddied

https://arxiv.org/abs/2411.00081 PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

minecraft

https://arxiv.org/pdf/2410.07484 WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

agent task collection

https://arxiv.org/pdf/2406.04151 AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments

https://arxiv.org/pdf/2401.13178 AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

https://arxiv.org/abs/2412.14161 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks


appendix

以下是 openai 和 anthropic 的 agent 工作。openai 的 product 经常反问。这点比较有意思。

https://openai.com/index/computer-using-agent/ CUA 的博客。

https://openai.com/index/operator-system-card/ operator system card

https://www.anthropic.com/news/developing-computer-use A 家进军 CUA 并有一定成果是在 2024-10,很早的。

posted @   没学完四大礼包不改名  阅读(44)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示