2024-08-27 闲话

用户行为建模是一个非常非常有趣的事情。从这六个字,你就可以联想到,我点点这里划划那里,你怎么就能知道我在干什么呢?今天突然想到除了 user 的 action 之外,我们其实还有屏幕的显示信息。

今天读到一篇文章,讲 Identifying User Goals from UI Trajectories。这个名字一下子就激起了我的好奇心,从 abstract 跟着一起思考了一下,非常有趣的体验!

我们有很多 GUI control 的 dataset。这些 dataset 中有不同的 task 和 solution。 solution又包括从 initial state 不断做动作(take actions)得到 final state 的 trajectory,但是这里的 trajectory 只有 state & action 没有 reward。state 在 GUI 这个 setting 里面就可以是一个屏幕截图,毕竟人在手机上进行操作的时候也就是有一个 intention,有 common sense,看到手机屏幕现在是什么样的,然后做出动作。

这些 GUI control dataset 有什么用呢?我们可以反过来,把 solution 当做 用户 action,我们去预测 task description。

但是它评估两个 output & std等价用的是 hand craft + prompt gpt,非常唐。

限制:
(1) user trajectories may be interleaved between multiple tasks as
users adjust their objectives in real time or are interrupted by other tasks
(2) users might have more ambiguous goals that evolve during their interaction with the user interface
(3) users might be less proficient with computers or phones, leading to noisier trajectories that are more challenging to identify and interpret intent from.

感觉自己在读到 aitw 的时候就意识到它这个实验只在 toy 上做了。


这东西有啥用啊?

我们希望未来的 agent 可以无所不能,比如你搜过 nihon 的各种地点,在飞书文档里面写了一堆粗粒度规划,又打开 booking.com,那么我们的 agent 就应该结合你的 income 给你推荐酒店啦。

posted @   没学完四大礼包不改名  阅读(40)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示