自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

奇月 发自 凹非寺

量子位 | 公众号 QbitAI

Claude操控电脑,究竟可以做到什么程度?

新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了!

研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数:

甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……

而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。

这下好了,人类只能在一旁干瞪眼了。

除了更多测试场景外,论文还提出了一个开箱即用的自动GUI框架

有网友看到视频后评论说:以后我去上学的时候,就可以让Claude帮我玩每日任务了。

还可以自动完成很多办公任务

Claude Computer Use的潜能还远远没有被人类发掘——

研究团队还测试了很多日常办公场景下它的性能:

1.网页搜索

它可以在Amazon和Apple官方网站上成功完成下单购物的任务,选择颜色配置、填写地址都轻松拿捏。

2.工作流程

模型还成功完成了在Apple Music添加歌曲、编辑Excel数据、在App Store安装应用等自动任务。

虽然界面设计和跳转逻辑更加复杂,它还是能智能地理解任务的最终目标,真是一个成熟的好AI(欣慰)!

3..办公生产力软件

此外,它还可以在Outook中转发邮件、调整Word布局、设置PowerPoint背景设置和插入三角形形状等等,这下真的可以大大增强生产力了(AI无用论 -1)。

4.还可以玩其他游戏

除了《崩坏:星穹铁道》,模型也可以自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等等。

Claude Computer Use API + 自动化GUI框架

你可能会好奇,强如Claude Computer Use,是怎么做到自动完成任务的呢?

下面我们就一起来看看背后的框架设计——

具体来说,团队基于Claude Computer Use的API设计了一个自动化GUI框架,主要分为以下6个部分:

1.系统提示

Claude Computer Use的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写 块来调用这些函数,例如计算机交互、Bash Shel命令和文件编辑工具。

2.状态观察

Claude Computer Use通过实时截图观察环境,不依赖元数据或HTML。每个时间步长过后,模型都会保留历史截图,帮助生成下一步的动作。

3.推理范式

Claude Computer Use采用了一种推理-行动范式,通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的GUI环境中生成更可靠的动作。

4.工具使用

Claude Computer Use提供了三种工具:计算机工具、文本编辑器工具和Bash工具,它们可以帮助模型与计算机进行交互,执行各种任务。

5.GUI动作空间

GUI动作空间内置了所有原始的鼠标和键盘动作,如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。

6.历史视觉上下文维护

模型在每个时间步长都会保留历史截图,以辅助动作生成过程。具体公式如下:

性能测试

为了更加广泛地测试Claude Computer Use和GUI框架联合后的性能效果,团队还设计了详尽的测试实验,包括

1.数据收集:实验设计包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务覆盖了广泛的应用领域,包括网页搜索、工作流程、办公生产力软件和视频游戏等。

2.样本选择:选择了20个任务,涵盖12个软件或网站,分为以下三个领域:网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表:

3.参数配置:系统分辦率设置为Windows的(1366,768)和macOS的(1344,756)。过程中还加入了人类评审和评估用于监控和审查过程,确保任务的顺利完成。

虽然Claude Computer Use在之前的例子中表现都非常厉害,但当网页或软件的页面过于复杂时,模型也出现了一些失败案例:

1.精细网页操作失败:在Fox Sports订阅任务中失败,错误原因主要在于模型没有正确导航到”Account”选项卡。

2.办公软件失败:在Word中更新简历模板、和在PPT中插入编号符号两个任务中失败,错误原因在于模型未能准确选择和定位文本字段。

不过整体来说,Claude Computer Use已经很棒了,而且这功能也刚刚发布没多久,未来可期!

团队还公开了所有测试用例的具体信息,感兴趣的小伙伴可以点GitHub项目链接查看更多消息~

Claude老师,以后我的PPT和Steam就拜托你了(bushi)

参考资料:

https://arxiv.org/pdf/2411.10323

https://github.com/showlab/computer_use_ootb

主题测试文章,只做测试使用。发布者:sengcheng,转转请注明出处:https://www.sengcheng.com/13112.html

(0)
sengcheng的头像sengcheng
上一篇 2024年11月24日 上午10:02
下一篇 2024年11月24日 上午10:26

相关推荐

  • 农民副县长被抓 老百姓放鞭炮庆祝 民心所向

    近日,江苏连云港市公安局的一份通告将“苏北第一位农民副县长”、如今的犯罪团伙头目宋世敏再次推上热榜。记者来到江苏连云港赣榆区青口镇宋口村,随机走访了多位村民,了解到了过去和现在的宋世敏。 有市民表示大家都很吃惊,但村里还有人放鞭炮庆祝此事,有些老百姓在他被抓当天晚上就放了鞭炮。连云港市公安局公告称,已抓获宋世敏、宋世团、宋忠柏等多名犯罪嫌疑人,并向社会公开征…

    行业 2024年10月30日
    6000
  • 俄罗斯经济越打越强!

    作者 | 天涯补刀 俄乌战争爆发以后,一些亲美派天天喊着“俄罗斯的石油卖不出去了”“俄罗斯财政大危机,准备无条件谈判”“美俄核大战的最终结局是俄罗斯被西方肢解瓜分”等一系列的“俄罗斯崩溃论”。 如今,两年多的时间已经过去了,俄罗斯的经济状况到底怎么样了? 最近我看到两个有意思的新闻: 第一,俄罗斯经济越打越强,失业率非常低,几乎人人都有工作; 10月28日,…

    行业 2024年10月31日
    3500
  • 日美发明奇葩电池真的可以无限充放电?

    撰文丨王跃生 近日,日本信州大学金子胜美教授团队制造了一种特殊的单壁碳纳米管绳,并通过实验证明由这种单壁碳纳米管组成的扭转绳具有卓越可逆存储纳米机械能的能力,其每千克能量密度高达2.1 兆焦耳,比钢制弹簧的能量存储能力高出一万倍以上,比目前最先进的锂离子电池高出3倍。更重要的是,这种扭转单壁碳纳米管绳中存储的纳米机械能即使在恶劣环境中也十分安全,不会随着时间…

    行业 2024年10月31日
    3800
  • 高校第一省,意味着什么?

    本科学校占三分之一 疯狂建高校,这一轮河南赢了。 近年来,新建高校似乎成了不少地区热衷的事情,大湾区、西部、中部等地都在疯狂建大学。《中国统计年鉴2024》数据显示,2023年全国普通、职业高等学校数量达到2822所,较上年增加62所。 在31个省份中,江苏、河南的高校数量达到168所,为全国高校数量最多的两个省份。广东、山东紧随其后,分别拥有162、156…

    行业 2024年11月22日
    1000
  • 美以关系,很离奇。了解美国政治与社会细节,才能明白

    美以关系,很离奇。了解美国政治与社会细节,才能明白 1. 伊朗和以色列,以色列和巴勒斯坦、黎巴嫩,中东乱战愈演愈烈。美国一贯双标,这不奇怪。但看多了会发现,以色列居然不是“美国打手”的角色,而是全球唯一的,让美国当儿子的国家。有一些国家是受美国指使在地区生乱,但以色列还真不是。 2. 例如以色列狂轰乱炸,加沙小孩实在太惨了,一些欧洲国家都看不下去了。拜登政府…

    行业 2024年10月26日
    4400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信