您的位置:首页 > 互联网

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临_google jackson

发布时间:2024-10-28 13:13:21  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】科幻中的贾维斯,已经离我们不远了。Claude3.5接管人类电脑掀起了人机交互全新范式,爆料称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。

google jackson

AI接管人类电脑,就是下一个未来!

几天前,Anthropic向所有人展示了,Claude3.5自主看屏幕操作光标完成复杂任务,足以惊掉下巴。

刚刚,Information独家爆料称,谷歌正开发同类新项目Project Jarvis,能将Chrome网页任务自动化。

谷歌贾维斯将由未来版Gemini2.0驱动,预计在12月亮相。

起这个名字,是为了向钢铁侠中的J.A.R.V.I.S致敬。

无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。

论文地址:https://arxiv.org/pdf/2408.00203

OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数据,帮助AI精准理解用户意图。

不仅如此,OpenAI内部已有了AI智能体雏形,可以操控计算机完成在线订餐、自动查询解决编程难题等任务。

包括苹果在内,预计在明年发布跨多个APP屏幕识别能力。最新迭代的Ferret-UI2,就是通用UI模型。

可见,Computer use已经成为科技大厂们,重点发力的下一个战场。

谷歌贾维斯年底出世,最强Gemini2加持

代号为Jarvis Project项目,本质上是一个大动作模型(LAM),也是谷歌一直以来在做的大模型方向。

它专门针对谷歌Chrome浏览器,进行了优化。

具体操作原理,与Claude3.5类似,通过截屏、解析屏幕内容,然后自动点击按钮,或输入文本,最终帮助人们完成基于网页的日常任务。

不论是收集研究信息、购物,或是预定航班等任务,谷歌贾维斯均可实现。

不过,它在执行不同操作时,中间会有几秒钟的思考时间。

因此,在终端设备中运行还不太现实,仍然需要云上操作。

5月的谷歌I/O大会上,谷歌CEO劈柴曾展示了,Gemini和Chrome如何协同工作的样貌。

如前所述,谷歌贾维斯将由Gemini2.0加持,也就意味着年底我们可以看到进步版Gemini模型。

尽管Sam Altman否认了Orion模型的发布,但外媒猜测,预计年底OpenAI也将放出新核弹

微软OmniParser也下场了

紧接着Claude计算机使用发布之后,微软就开源了AI框架OmniParser。

假设你想要去布赖斯峡谷国家公园,不知是否需要订票入园,这时OmniParser可以带你查询。

它会解析屏幕后,自动点击permits按钮,然后再截屏找到布赖斯峡谷国家公园,最后就可以完成用户任务。

可见,想要把类似GPT-4V的多模态大模型应用于操作系统上,模型还需要具备强大的屏幕解析能力,主要包括两方面:

1、准确地识别用户界面中的可交互图标;

2、理解屏幕截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。

基于上述思路,微软最新提出的OmniParser模型,可以将用户界面截图解析为结构化元素,显著增强了GPT-4V在对应界面区域预测行动的能力。

方法

一个复杂的操作任务通常可以分解成多个子行动步骤,在执行过程中,模型需要具备以下能力:

1、理解当前步骤的用户界面,即分析屏幕内容中大体上在展示什么、检测到的图标功能是什么等;

2、预测当前屏幕上的下一个动作,来帮助完成整个任务。

研究人员发现,将这两个目标分解开,比如在屏幕解析阶段只提取语义信息等,可以减轻GPT-4V的负担;模型也能够从解析后的屏幕中利用更多信息,动作预测准确率更高。

因此,OmniParser结合了微调后的可交互图标检测模型、微调后的图标描述模型以及光学字符识别(OCR)模块的输出,可以生成用户界面的结构化表示,类似于文档对象模型(DOM),以及一个叠加潜在可交互元素边界框的屏幕截图。

可交互区域检测(Interactable Region Detection)

从用户界面屏幕中识别出可交互区域非常关键,也是预测下一步行动来完成用户任务的基础。

研究人员并没有直接提示GPT-4V来预测屏幕中操作范围的xy坐标值,而是遵循先前的工作,使用标记集合方法在用户界面截图上叠加可交互图标的边界框,并要求GPT-4V生成要执行动作的边界框ID。

为了提高准确性,研究人员构造了一个用于可交互图标检测的微调数据集,包含6.7万个不重复的屏幕截图,其中所有图像都使用从DOM树派生的可交互图标的边界框进行标记。

为了构造数据集,研究人员首先从网络上公开可用的网址中提取了10万个均匀样本,并从每个URL的DOM树中收集网页的可交互区域的边界框。

除了可交互区域检测,还引有一个OCR模块来提取文本的边界框。

然后合并OCR检测模块和图标检测模块的边界框,同时移除重叠度很高的框(阈值为重叠超过90%)。

对于每个边界框,使用一个简单的算法在边框旁边标记一个ID,以最小化数字标签和其他边界框之间的重叠。

整合功能的局部语义(Incorporating Local Semantics of Functionality)

研究人员发现,在很多情况下,如果仅输入叠加了边界框和相关ID的用户界面截图可能会对GPT-4V造成误导,这种局限性可能源于GPT-4V无法同时执行识别图标的语义信息和预测特定图标框上的下一个动作的复合任务。

为了解决这个问题,研究人员将功能局部语义整合到提示中,即对于可交互区域检测模型检测到的图标,使用一个微调过的模型为图标生成功能描述;对于文本框,使用检测到的文本及其标签。

然而,目前还没有专门为用户界面图标描述而训练的公共模型,但这类模型非常适合目标场景,即能够为用户界面截图提供快速准确的局部语义。

研究人员使用GPT-4o构造了一个包含7000对图标-描述的数据集,并在数据集上微调了一个BLIP-v2模型,结果也证明了该模型在描述常见应用图标时更加可靠。

实验评估

SeeAssign任务

为了测试GPT-4V模型正确预测边界框描述所对应的标签ID的能力,研究人员手工制作了一个名为SeeAssign的数据集,其中包含了来自3个不同平台(移动设备、桌面电脑和网络浏览器)的112个任务样本,每个样本都包括一段简洁的任务描述和一个屏幕截图。

根据难度,任务被分为三类:简单(少于10个边界框)、中等(10-40个边界框)和困难(超过40个边界框)。

GPT-4V不带局部语义的提示:

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n

带局部语义的提示:

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n

英特尔与windows

从结果来看,GPT-4V经常错误地将数字ID分配给表格,特别是当屏幕上有很多边界框时;通过添加包括框内文本和检测到的图标的简短描述在内的局部语义,GPT-4V正确分配图标的能力从0.705提高到0.938

ScreenSpot评估

ScreenSpot数据集是一个基准测试数据集,包含了来自移动设备(iOS、Android)、桌面电脑(macOS、Windows)和网络平台的600多个界面截图,其中任务指令是人工创建的,以确保每个指令都对应用户界面屏幕上的一个可操作元素。

结果显示,在三个不同的平台上,OmniParser显著提高了GPT-4V的基线性能,甚至超过了专门在图形用户界面(GUI)数据集上微调过的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。

还可以注意到,加入局部语义(表中的OmniParser w. LS)可以进一步提高整体性能,即在文本格式中加入用户界面截图的局部语义(OCR文本和图标边界框的描述),可以帮助GPT-4V准确识别要操作的正确元素。

Mind2Web评估

测试集中有3种不同类型的任务:跨领域、跨网站和跨任务,可以测试OmniParser在网页导航场景中的辅助能力。

结果显示,即使没有使用网页的HTML信息,OmniParser也能大幅提高智能体的性能,甚至超过了一些使用HTML信息的模型,表明通过解析屏幕截图提供的语义信息非常有用,特别是在处理跨网站和跨领域任务时,模型的表现尤为出色。

AITW评估

研究人员还在移动设备导航基准测试AITW上对OmniParser进行了评估,测试包含3万条指令和71.5万条轨迹。

结果显示,用自己微调的模型替换了原有的IconNet模型,并加入了图标功能的局部语义信息后,OmniParser在大多数子类别中的表现都有了显著提升,整体得分也比之前最好的GPT-4V智能体提高了4.7%。

这表明了,模型能够很好地理解和处理移动设备上的用户界面,即使在没有额外训练数据的情况下也能表现出色。

参考资料:

https://microsoft.github.io/OmniParser/

https://x.com/Prashant_1722/status/1850265364158124192


返回网站首页

本文评论
宁夏的算力为什么发展得这么好?
通信世界网消息(CWW)作为数字经济的关键底座,算力如今是数字经济发展的基础竞争力,全国各省市都在大力进行算力建设。最近2023年中国算力大会在银川举办,宁夏也借机对自身算力能...
日期:08-23
WDCC 2022世界设计之都大会开启元宇宙新世代
要加快推进世界知名“设计之都”建设,打造国际国内原创设计的首 发地,优 秀设计的产业转化高地,构建多元共赢的创意设计生态圈。——《上海市国民经济和社会发展第十四个五年规...
日期:09-15
ofo消失的第五年:欠1600万人血汗钱
声明:本文来自于微信公众号伯虎财经(bohuFN),作者:梦得,授权转载发布。ofo带来最后一击?据报道称,共享单车企业ofo客户端已经无法收到短信验证码,不能登录;客服电话无法接通,公司办...
日期:03-05
“新竞争 新管理 新未来”  前程无忧2021人力资源管理杰出奖榜单揭晓
  2020年注定是载入史册的一年,面对经济增速趋缓、新冠疫情冲击和全球一体化转折的多重挑战,如何配合公司的战略重构和业务调整、如何搭建高效团队发挥领导力,如何兼顾员工...
日期:07-16
华为自动驾驶是几级「华为余承东:中国 L3 自动驾驶标准预计 6 月底发布」
6月9日消息:在今天的 2023 重庆车展阿维塔科技发布会上,华为常务董事、终端 BG CEO、智能汽车解决方案 BU CEO 余承东表示,中国 L3 级自动驾驶标准预计在 6 月底发布。防窥膜...
日期:06-09
与《流浪地球2》MOSS同名 复旦发布国内首个类ChatGPT:能回答能编程
ChatGPT是当前最火的生成式AI模型,可以很自然地跟人类对话,解答问题,甚至帮助人类从事很多工作,被认为潜力巨大,国内也有多家机构在推类ChatGPT的模型,复旦大学现在抢先一步,推出了...
日期:03-01
预付卡无证者遭商家封杀 失业务资格
  央行与商务部联合展开的预付卡专项检查日前正式在全国各地铺开,违规卡企有可能面临“生死一线”的考验。有媒体报道称北京、上海、浙江、陕西、四川等地的多家预付卡企...
日期:07-23
播放量超10亿,涨粉600万+,《逃出大英博物馆》吸睛又吸粉
声明:本文来自于微信公众号 蝉妈妈(ID:cmmshuju),作者:蝉妈妈,授权转载发布。火爆全网的短剧《逃出大英博物馆》于9月5日上线了大结局。全片只有3集,时长分别为2分43秒、4分39秒...
日期:09-08
就离谱,多国苹果App Store全面涨价_苹果提高多国应用商店价格
中关村在线消息:近期苹果公司宣布,10月5日起,苹果应用商店(App Store)在智利、埃及、日本、马来西亚、巴基斯坦、波兰、韩国、瑞典、越南以及所有使用欧元的地区将会提高应用程序...
日期:10-09
淘宝美妆行业现状_淘宝商城化妆品消费趋势报告:浙江的女人最败家
  9月1日,独立的B2C平台淘宝商城(www.tmall.com)美容馆近日发布首份化妆品消费趋势报告——《2011年上半年Tmall淘宝商城化妆品消费趋势报告》,通过对化妆品成交金额、男...
日期:07-22
外界很多评论在提到这份审计清单「美方将审计中概股,互联网巨头将首批接受审计底稿检查」
【环球时报报道记者 倪浩】根据中美在8月底就中概股审计达成的协议,中国证监会将安排在美上市的中国公司及其会计师事务所将其审计底稿和其他数据从内地转移到香港,在9月中旬...
日期:09-19
钛动科技-出海企业跨境电商破局之道:精准策略,赋能全球_钛动科技难进吗
在全球化浪潮的推动下,越来越多的中国企业选择出海拓展市场,跨境电商成为了他们连接海外消费者的桥梁。然而,面对复杂多变的国际市场,如何在海外做好电商,实现品牌与市场的双重突...
日期:10-24
GPS侧目!北斗“女神”徐颖:我们追求毫米级甚至更小的精度「北斗女神徐颖毕业于什么大学」
快科技5月9日讯,北斗导航系统科学家、中国科学院空天信息创新研究院研究员、中国科学院导航总体部副总工程师徐颖在微博分享视频,她写道有人说,定位精度做到十米级、米级就够了...
日期:05-09
字节跳动做了一个大模型精品店_字节跳动三维模型师
【】围绕大模型的创业热潮方兴未艾,百度、阿里、360等互联网巨头均已下场,张一鸣开始抓大模型的消息也传了许久,虽然字节跳动还没有发布通用大模型产品,但其在大模型上的布局一...
日期:09-22
700万劳斯莱斯行驶中自燃细节曝光:底盘突然起火、有油洒出_劳斯莱斯开起来
快科技9月16日消息,近日在北京,一台价值超700多万的劳斯莱斯库里南行驶途中突然起火自燃,虽然消防人员紧急施救,但前部机舱和车尾都被完全烧烂,已经失去了维修的意义。事故发生后...
日期:09-16
19.99万元期待落空 打价格战的特斯拉为何突然涨价:利润下滑_特斯拉为什么涨价又降价
快科技5月3日消息,前不久网友还在期待特斯拉在国内开启新一轮降价,Model 3入门价格甚至能降到19.99万元,没想到最终等来的是特斯拉的反向降价Modle 3及Model Y等全面上涨2000元...
日期:05-03
电脑出货量全球排名「Canalys:二季度全球个人电脑出货量下降12%」
通信世界网消息(CWW)2023年第二季度, 全球个人电脑市场的跌势有所放缓,台式机和笔记本电脑的总出货量同比下降11.5%至6210万台。在此之前,出货量连续两季度跌幅超过30%。第二季...
日期:07-12
福特购买小米SU7去美国:CEO开了六个月不想换_福特和小米
快科技10月22日消息,好车自然会受认可,哪怕它并没有在当地销售。近日在“Everything Electric Show”的一档专访,福特CEO Jim Farley(吉姆·法利)分享时提到称自己最近半年一直...
日期:10-22
微软承认Word离奇Bug!命名不当会导致文件被删_微软承认word离奇bug!命名不当会导致文件被删除吗
快科技10月8日消息,微软近日确认Word应用中存在一个Bug,该漏洞可能导致用户在特定情况下错误地删除文件。该问题主要出现在文件命名过程中,如果用户在保存Word文件时采用特定的...
日期:10-08
经济日报:支付十年 数字化浪潮中的支付变迁_数字时代的中国支付体系现代化
  2013年,上海的张先生来到浦发银行的ATM机,他要给远在北京上学的小张转生活费。插卡、输入密码、转账、24小时后,小张的招商银行借记卡将收到这笔转账款项。  2017年,小张...
日期:09-28