您的位置:首页 > 互联网

研究人员教会GPT-4V使用iPhone并在亚马逊应用程序上购物

发布时间:2023-11-15 15:59:59  来源:互联网     背景:

要点:

1. 《MM-Navigator》是基于GPT-4V的智能代理,通过图像处理和文本推理结合,使其能够在iPhone上执行购物任务。

2. GPT-4V的关键创新在于同时处理图像和文本,使得AI系统能够直接处理真实的智能手机界面截图,而不仅仅是处理文本描述。

3. MM-Navigator在处理多步骤场景方面表现出色,例如成功地在Amazon应用上购买商品,展示了其在理解和与多个界面交互方面的潜力。

11月15日 消息:在当今智能手机技术不断发展的世界中,对能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。MM-Navigator通过使用GPT-4V代理来满足这一需求,该代理结合了图像处理和文本推理,使其能够在iPhone上执行购物任务。本文将着重介绍MM-Navigator的技术能力,特别是其对GPT-4V的应用。我们将探讨它如何解释屏幕,决定动作,并与移动应用程序进行准确的交互。同时,我们将关注GPT-4V的关键特性,屏幕理解和动作决策的创新方法,以及实现准确、上下文敏感的应用程序交互的策略。通过这些分析,我们将突显MM-Navigator如何显著缩小了人工智能潜力与智能手机应用功能复杂性之间的差距。

多年来,科学家们一直追求能够像人类一样与计算设备交互并遵循自然语言指令的AI助手目标。随着智能手机的广泛采用,虚拟助手如Apple的Siri变得更加普遍,但它们的能力仍然有限。实现能够执行复杂多步骤任务的智能助手需要在AI模型理解和操作复杂应用程序界面方面取得重大进展。

近年来,AI领域的进展主要是由类似GPT-4的大型语言模型(LLMs)推动的。然而,要控制像智能手机这样的真实设备,AI系统需要超越仅仅处理文本的范畴。它还必须能够解释屏幕上显示的复杂视觉界面,然后执行精确的物理操作,如点击特定按钮或滚动菜单。早期尝试将智能手机截图转换为文本描述,然后将该文本馈入语言模型。然而,这种方法丧失了很多重要的布局和视觉关系信息,这对于识别与之交互的正确界面元素至关重要。

ai绘画

但现在,GPT-4V应运而生!它能够摄取并理解图像和文本的结合。这一发展使得AI系统能够直接处理真实的智能手机界面截图,理解各个组件,并确定智能的操作,而无需将输入简化为仅文本。然而,在将大型多模型模型(LMMs,与LLMs不同)应用于设备控制任务方面仍然存在重大挑战。模型需要能够智能生成一系列的动作,以视觉屏幕输入和提供的文本指令为条件。然后,它必须能够通过点击或点击屏幕上特定区域来精确执行每个动作,这些区域对应于按钮或菜单。这个对于推理复杂界面并产生精确的本地化动作的复杂性使得这成为一个极其困难的问题。MM-Navigator正试图解决这个问题。

MM-Navigator系统由GPT-4V模型和新颖的提示技术组成,以实现对屏幕位置的精确定位。在高层次上,GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入。然后,它产生描述下一步动作的文本输出。为了允许点击屏幕的精确区域,研究人员首先在屏幕图像中的每个交互元素(如按钮和图标)上添加编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签,索引特定的屏幕位置。

由于提供所有过去图像和动作的完整历史会带来计算上的问题,所以在每个步骤中,提示提供了关键过去事件和上下文的自然语言总结。这种自我总结提供了对交互历史的有效近似。GPT-4V的输出文本包含动作的高级自然语言描述,例如“点击发送按钮”,以及像“[Action: Tap, Location: (12)]”这样的数字标签。这种双重输出允许既有人类可读的描述,又有在实际智能手机界面上执行点击或滚动动作的精确坐标。

为了评估MM-Navigator系统,研究人员对两个数据集进行了测试:一个包含他们自己收集的iOS屏幕和指令的数据集,以及一个包含Android设备屏幕和动作的公开数据集。在包含单一动作指令的iOS屏幕上,人类评估发现预期动作的自然语言描述在91%的情况下是合理的。由数字标签选择的实际屏幕位置在75%的情况下是正确的,表明具有良好但不完美的视觉基础能力。

MM-Navigator在处理多步骤场景方面的熟练表现在于其在协助购物等任务中的能力。在论文中,一个例子吸引了我,他们让代理在Amazon上购买了一台奶泡机!该系统成功地在各种应用程序和界面中导航,甚至保持在50-100美元的预算范围内。这张图片摘自论文,详细展示了它的工作原理。在这种情况下,MM-Navigator解释了用户的文本指令和智能手机屏幕上的视觉元素。然后,它确定完成购买所需的动作序列。这可能涉及在购物应用程序中搜索产品,根据价格和产品规格应用过滤器,选择适当的项目,并引导用户完成结账过程。

这展示了MM-Navigator处理复杂、序列任务的能力,这些任务需要理解和与多个界面交互。它不仅展示了该系统在执行单个、孤立动作方面的潜力,还展示了其在管理一系列互相关联步骤方面的潜力,这与人类使用智能手机应用程序完成实际任务的方式相似。

然而,MM-Navigator也存在许多错误情况。在论文的“错误分析”部分,作者们审查了GPT-4V在预测图形用户界面(GUIs)中用户动作时所犯的错误类型。他们确定了两类主要错误:假阴性和真阴性。假阴性通常是由于数据集或注释过程的问题。在某些情况下,GPT-4V的预测是正确的,但由于Set-of-Mark注释解析的不准确或数据集注释不完美而被标记为错误。

这种情况经常发生在GUIs中的目标区域被过度分割或存在多个有效动作的情况下,但注释只认定一个为正确。真阴性错误归因于GPT-4V的零样本测试方法的局限性。由于缺乏示例来指导其对用户动作模式的理解,该模型倾向于点击而不是滚动,导致与典型人类动作不符的决策。例如,GPT-4V可能试图在可见选项卡中找到选项,而不是向下滚动以获取更多选项。它还可能点击不可交互的元素,或者过于字面地解释指令,导致不适当的动作。

总的来说,由GPT-4V模型驱动的MM-Navigator在AI导航和与智能手机界面交互的能力方面取得了有趣的进展。它将大型多模型模型的先进功能与创新技术结合起来,以解释和在移动应用中执行动作。虽然它在理解用户指令和执行任务方面表现出高准确性,但仍然存在挑战,特别是在处理多样化和动态界面元素以及确保与人类行为一致的准确决策方面。

该系统的开发和测试突显了创建能够进行如此复杂交互的AI模型的复杂性,并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展,我能看到这项技术有各种用途 - 自动化QA测试,帮助残障人士,甚至在我们忙于其他工作时为我们完成手机上的任务。看起来很有趣!


返回网站首页

本文评论
5折起!小米手机换屏、电池换新服务上线:支持24款机型「小米商城手机电池换新服务」
10月1日消息,今日,小米服务官方表示,10月小米服务周正式开启,10月1日至10月7日部分服务5折起。包括5折手机屏幕换新服务、8折手机电池换新服务。据了解,本次5折手机屏幕换新服务...
日期:10-03
携程将于今日上午10点开始发放贵州文旅消费券_贵州文旅消费券使用范围
10月12日消息,为提振贵州旅游消费,促进贵州省文旅产业恢复,帮助文旅企业纾困,带动省内及周边出游,2022年秋冬季,贵州省文化和旅游厅联合携程集团开展“体验多彩贵州·乐享温暖人生...
日期:10-16
谷歌要对HTTPS动手,只因大家对它误解太深
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。通过输入网址来打开网站,相信许多朋友的上网冲浪都是从这一步开始。即便移动互联网生态已经愈发...
日期:05-11
中国5G“扛把子” 展锐跃升全球智能手机AP供应商前三(展锐 5G)
  研究机构Counterpoint数据显示,2021年上半年,展锐智能手机应用处理器(AP)出货量同比增长122%,其中第二季度的市占率达到8.4%,跃升全球第四大供应商、在开放市场排名第三。...
日期:05-15
同步NV首发!全国第一家装RTX 4090的网吧来了:老板豪横
本周刚刚发售的RTX 4090,居然有网吧已经配上了?据索泰官方消息,位于广西柳州的鸿翔电竞馆在10月12日RTX 4090首销当日就为店内机器装上了RTX 4090,而且很可能是全国第一家装上RT...
日期:10-15
2020 财年 Microsoft 365 收入超 200 亿美元,同比大增 50%_微软财报2020全年
  7月29日消息 外媒Neowin报道,微软上周公布了 2020 财年第四季度财报,以上一季度 380 亿美元收入完成了本财年的任务。强劲的收益部分得益于 Windows、游戏和 Surface 硬...
日期:07-14
官宣:Android 13正式开源 源代码公开!华为等随便用「android开源系统」
  新酷产品第一时间免费试玩,还有众多优质达人分享独到生活经验,快来新浪众测,体验各领域最前沿、最有趣、最好玩的产品吧~!下载客户端还能获得专享福利哦!一月红旗汽车销量 ...
日期:09-28
老外吐槽RTX 4060 Ti/RX 7600:2023年了 2000多元还是1080P游戏显卡
快科技5月24日讯,AMD今晚发布RX 7600显卡,RDNA3家族最便宜的甜点,定价269美元,国内2149元。显然,RX 7600的使命就是让延期到7月份上市的RTX 4060难受,后者定价299美元,国内2399元。...
日期:05-25
Poly博诣与腾讯推出联合解决方案 打造云+端智能办公升级体验
  打造一站式办公协同SaaS生态,Poly博诣携手腾讯云、腾讯会议开创中国全新智能协同办公新场景   北京,2019年12月25日讯。今日,在“智会互联 云领未来”2019腾讯会议产...
日期:07-20
siri定制语音_类Siri应用 天翼讯飞语音助理试用
  10月14日消息,尽管没有带给大家期待中的4寸屏、极窄边框,但iPhone 4S携带Siri强势登场,或将掀起下一场手机革命。Siri的核心在于人工智能和语音技术,可以实现用户和系统通...
日期:07-24
iPhone 15系列将包括四种型号,其中Pro Max采用潜望镜透镜
iPhone 15系列将包括四种型号:iPhone 15、iPhone 15 plus、iPhone 15 pro和iPhone 15 ultra,其中pro max型号配备了潜望镜透镜。这款镜头将提供前所未有的6倍光学变焦功能,比iP...
日期:04-25
实时社交的风还在吹,又有新产品登顶十国总榜
综合多个第三方数据平台,笔者发现全球最大的实时社交 App BeReal 近半年下载量一直在下降,于是便开始启动执行一个“BeReal 正在下坠”的选题。在搜集资料的过程中,笔者发现 Be...
日期:05-23
这么火爆?小米14部分型号在电商平台处于缺货状态_小米14什么时候出
【手机中国新闻】昨晚,小米14系列在国内市场正式开启定金预售,这一举措迅速点燃了消费者的抢购热情,引发了又一轮的“米粉”狂潮。10月27日,手机中国了解到,小米14系列新机的部分...
日期:10-28
一汽红旗新能源动力总成工厂_一汽红旗:首台整车搭载模块化电驱动总成成功 EOL 下线
IT之家 8 月 2 日消息,据一汽红旗官方消息,一汽研发总院某整车搭载的全新一代模块化电驱动总成近日成功 EOL 下线。▲ 图源:一汽红旗IT之家了解到,该车型搭载全新自主模块化电驱...
日期:08-22
百度盲人导航眼镜专利获授权,可提供语音导航和避障提示信息
5月9日 消息:企查查APP显示,近日,北京百度网讯科技有限公司申请的“盲人导航眼镜”外观设计专利获授权。企查查专利摘要显示,本外观设计产品用于为盲人用户的出行进行导航,并且...
日期:05-09
移动互联网网络安全技术包括哪些?「中移互联:攻坚技术难题 筑牢网络安全“防火墙”」
通信世界网消息(CWW)2023年9月11—17日是国家网络安全宣传周,今年的国家网络安全宣传周以“网络安全为人民,网络安全靠人民”为主题。基于运营商特有的号卡安全能力,中移互联网公...
日期:10-19
法拉第未来面临退市危险,贾跃亭、陈雪峰降薪买股票_法拉第未来高管团队
凤凰网科技讯 北京时间9月22日,贾跃亭创建的电动汽车公司法拉第未来周四宣布,多名公司高管已自愿签署了降薪和股票购买协议计划,其中包括创始人贾跃亭和新任CEO马提亚斯艾德特(M...
日期:09-22
从模型层面保护AI的安全,AWS背景的连续创业者获3500万美元融资
声明:本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社,授权转载发布。AI正被越来越多的企业采用,为他们带来价值,甚至成为一些企业的核心能力。但是,针对AI的...
日期:09-14
疫情冲击游戏行业:玩家回归现实世界 游戏公司销售滑坡_全球疫情
苹果7p双摄像头怎么用电器消费者分析亚马逊卖保健品applewatch6销量联想去年营收三星note4分辨率   讯 北京时间8月15日早间消息,据报道,近几个月,随着疫情后玩家逐渐回归现...
日期:08-16
Runway推新功能运动笔刷 随手一涂静图变动图
要点:苹果耳机airpods pro max啥时候升级Runway推出的新功能运动笔刷在Gen-2视频生成工具中上线,无需输入文字,只需手势操作,即可使图片动起来,是一种可控制生成内容移动的新方...
日期:11-14