您的位置:首页 > 互联网

谷歌发布最新读屏AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA_谷歌读屏软件下载安装

发布时间:2024-03-05 10:22:16  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子,授权转载发布。

【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。

每个人想要的大模型,是真·智能的那种......

这不,谷歌团队就做出来了一个强大的读屏AI。

研究人员将其称为ScreenAI,是一种理解用户界面和信息图表的全新视觉语言模型。

论文地址:https://arxiv.org/pdf/2402.04615.pdf

ScreenAI的核心是一种新的屏幕截图文本表示方法,可以识别UI元素的类型和位置。

值得一提的是,研究人员使用谷歌语言模型PaLM2-S生成了合成训练数据,以训练模型回答关屏幕信息、屏幕导航和屏幕内容摘要的问题。

图源备注:图片由AI生成,图片授权服务商Midjourney

举个栗子,比如打开一音乐APP页面,可以询问有几首歌时长少于30秒?

ScreenAI便给出了简单的答案:1。

vivo s1手机像素

再比如命令ScreenAI打开菜单,就可以选中。

架构灵感来源——PaLI

图1中展示了ScreenAI模型架构。研究人员受到了PaLI系列模型架构(由一个多模态编码器块组成)的启发。

该编码器块包含一个类似ViT的视觉编码器和一个消费图像(consuming image)和文本输入的mT5语言编码器,后接一个自回归解码器。

输入图像通过视觉编码器转化为一系列嵌入,这些嵌入与输入文本嵌入结合,一起输入mT5语言编码器。

谷歌在线朗读器

编码器的输出传递给解码器,生成文本输出。

这种泛化公式能够使用相同的模型架构,解决各种视觉和多模态任务。这些任务可以重新表述为文本+图像(输入)到文本(输出)的问题。

与文本输入相比,图像嵌入构成了多模态编码器输入长度的重要部分。

简而言之,该模型采用图像编码器和语言编码器提取图像与文本特征,将二者融合后输入解码器生成文本。

这种构建方式可以广泛适用于图像理解等多模态任务。

另外,研究人员还进一步扩展了PaLI的编码器-解码器架构,以接受各种图像分块模式。

原始的PaLI架构只接受固定网格模式的图像块来处理输入图像。然而,研究人员在屏幕相关领域遇到的数据,跨越了各种各样的分辨率和宽高比。

为了使单个模型能够适应所有屏幕形状,有必要使用一种适用于各种形状图像的分块策略。

为此,谷歌团队借鉴了Pix2Struct中引入的一种技术,允许根据输入图像形状和预定义的最大块数,生成任意网格形状的图像块,如图1所示。

这样能够适应各种格式和宽高比的输入图像,而无需对图像进行填充或拉伸以固定其形状,从而使模型更通用,能够同时处理移动设备(即纵向)和台式机(即横向)的图像格式。

模型配置

研究人员训练了3种不同大小的模型,包含670M、2B和5B参数。

对于670M和2B参数模型,研究人员从视觉编码器和编码器-解码器语言模型的预训练单峰检查点开始。

对于5B参数模型,从 PaLI-3的多模态预训练检查点开始,其中ViT与基于UL2的编码器-解码器语言模型一起训练。

表1中可以看到视觉和语言模型之间的参数分布情况。

自动数据生成

研究人员称,模型开发的预训练阶段很大程度上,取决于对庞大且多样化的数据集的访问。

然而手动标注广泛的数据集是不切实际的,因此谷歌团队的策略是——自动数据生成。

这种方法利用专门的小模型,每个模型都擅长高效且高精度地生成和标记数据。

与手动标注相比,这种自动化方法不仅高效且可扩展,而且还确保了一定程度的数据多样性和复杂性。

第一步是让模型全面了解文本元素、各种屏幕组件及其整体结构和层次结构。这种基础理解对于模型准确解释各种用户界面并与之交互的能力至关重要。

这里,研究人员通过爬虫应用程序和网页,从各种设备(包括台式机、移动设备和平板电脑)收集了大量屏幕截图。

然后,这些屏幕截图会使用详细的标签进行标注,这些标签描述了UI 元素、它们的空间关系以及其他描述性信息。

此外,为了给预训练数据注入更大的多样性,研究人员还利用语言模型的能力,特别是PaLM2-S分两个阶段生成QA对。

首先生成之前描述的屏幕模式。随后,作者设计一个包含屏幕模式的提示,指导语言模型生成合成数据。

经过几次迭代后,可以确定一个有效生成所需任务的提示,如附录C所示。

三星手机在印度

为了评估这些生成响应的质量,研究人员对数据的一个子集进行了人工验证,以确保达到预定的质量要求。

该方法在图2中进行了描述,大大提升预训练数据集的深度与广度。

通过利用这些模型的自然语言处理能力,结合结构化的屏幕模式,便可以模拟各种用户交互和情景。

两组不同任务

接下来,研究人员为模型定义了两组不同的任务:一组初始的预训练任务和一组后续的微调任务。

这两组的区别主要在于两个方面:

- 真实数据的来源:对于微调任务,标记由人类评估者提供或验证。对于预训练任务,标记是使用自监督学习方法推断的或使用其他模型生成的。

- 数据集的大小:通常预训练任务包含大量的样本,因此,这些任务用于通过更扩展的一系列步骤来训练模型。

谷歌读屏软件下载

表2显示所有预训练任务的摘要。

在混合数据中,数据集按其大小按比例加权,每个任务允许的最大权重。

将多模态源纳入多任务训练中,从语言处理到视觉理解和网页内容分析,使模型能够有效处理不同的场景,并增强其整体多功能性和性能。

研究人员在微调期间使用各种任务和基准来估计模型的质量。表3总结了这些基准,包括现有的主要屏幕、信息图表和文档理解基准。

m2芯片macbook pro16寸

实验结果

图4显示了ScreenAI模型的性能,并将其与各种与屏幕和信息图形相关的任务上的最新SOT结果进行了比较。

可以看到,ScreenAI在不同任务上取得的领先性能。

在表4中,研究人员呈现了使用OCR数据的单任务微调结果。

对于QA任务,添加OCR可以提高性能(例如Complex ScreenQA、MPDocVQA和InfoVQA上高达4.5%)。

然而,使用OCR会稍微增加输入长度,从而导致整体训练速度更慢。它还需要在推理时获取OCR结果。

另外,研究人员使用以下模型规模进行了单任务实验:6.7亿参数、20亿参数和50亿参数。

春节 抖音

在图4中可以观察到,对于所有任务,增加模型规模都可以改进性能,在最大规模下的改进还没有饱和。

对于需要更复杂的视觉文本和算术推理的任务(例如InfoVQA、ChartQA和Complex ScreenQA),20亿参数模型和50亿参数模型之间的改进明显大于6.7亿参数模型和20亿参数模型。

google speech api

最后,图5显示了,对于长宽比>1.0的图像(横向模式图像),pix2struct分割策略明显优于固定网格分割。

对于纵向模式图像,趋势相反,但固定网格分割仅稍微好一些。

鉴于研究人员希望ScreenAI模型能够在不同长宽比的图像上使用,因此选择使用pix2struct分割策略。

谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。


返回网站首页

本文评论
从“不造车”到“联合造车”,华为的造车“野心”不藏了?_华为造车合作车企
小米真无线降噪耳机3 Pro空间音频本报(chinatimes.net.cn)记者于建平见习记者 才丽媛北京报道随着汽车产业向电动化、智能化领域加速转型,华为在汽车领域的“野心”也日益变大...
日期:06-24
腾讯旗下《街头篮球》手游将在中国大陆停服,服务器将于今日11点关闭
7月25日 消息:近日,腾讯游戏宣布,由于业务调整,将于今日11点正式停止在中国大陆地区运营《街头篮球》手游。《街头篮球》手游是一款由 JOYCITY 公司授权、北京掌趣科技开发的3v...
日期:07-25
好莱坞演员寻求达成使用人工智能「数字替身」的新协议
6月7日消息:好莱坞最大的工会将开始讨论人工智能时代的薪酬问题,作为与电影制片厂的合同谈判的一部分,讨论的议题是人类演员如何为其「数字替身」的工作获得报酬。努比亚z18发...
日期:06-07
华为HarmonyOS NEXT开发者预览版Beta招募开启_harmonyos 2.0开发者beta公测招募 | 华为开发者联盟
1月15日 消息:华为HarmonyOS开发者社区近日宣布,HarmonyOS NEXT开发者预览版Beta招募现已正式开启。本次Beta招募的首批支持机型包括Mate60、Mate60Pro和Mate X5,覆盖了华为的...
日期:01-15
微信大改版!“momo大军”登陆公众号评论区,视频号挂链规则收紧
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:松露 小八,授权转载发布。微信又有了新动作。两个多月前,新榜曾发文《天降10万+?“看一看”能重新盘活公众号流量吗》,讨论微...
日期:09-06
人民网:别让恶俗网络烂梗毒害孩子 还健康用网环境「网络烂的要死」
今天人民网发表热评《不能让恶俗的网络烂梗毒害孩子》,据报道,小孩子学到的网络烂梗越来越多。为此有人提出,要共建共治,家长多陪伴、学校多引导、平台多负责,一起把青少年的网络...
日期:03-08
2023世界5G大会圆满闭幕,三大亮点为中原数字化发展贡献智慧力量
通信世界网消息(CWW)经国务院批准,由科学技术部和河南省人民政府共同主办,河南省科学技术厅、郑州市人民政府、未来移动通信论坛联合承办的2023世界5G大会,在农业农村部、文化和...
日期:12-08
特斯拉回应召回28万辆车:主动召回「特斯拉中国召回超110万辆车 车顶维权女车主:不能服众」
近日,特斯拉中国召回超110万辆一事,引起网友关注热议,特斯拉官方回应称,此次召回可降低踩错踏板发生碰撞事故的概率。而此前上海车展特斯拉车顶维权女车主,也发表了对此事的看法:...
日期:05-14
洛图科技:今年 Q3 国内智能平板线上市场大涨 20%,苹果、华为前二
10 月 30 日消息,根据洛图科技(RUNTO)最新发布的《中国智能平板线上零售市场月度追踪》,2023 年第三季度,中国消费级智能平板在线上公开零售市场(不含抖快等内容电商)的零售量为 28...
日期:10-30
我爱了你80年抖音_91岁爷爷的爱情感动抖音:这辈子很平淡,最大成就是爱了你70年
  有人说,爱情最好的样子就是他满眼都是你。你的悲欢喜乐都与他有关。他把你当作丫头,将你宠成一个孩子;他脾气不好,但仅有的温柔都给了你;他知道你最喜欢吃的东西;他会把草...
日期:05-12
Android 12首个开发者预览版发布_安卓开发者预览计划
  (原标题::新界面 众多底层更新)   谷歌今天发布了面向 Pixel 设备的下一版 Android 系统 Android 12 的首个开发者预览版。按照谷歌的惯例,Android 的首个预览版充满了...
日期:07-16
旷视科技宣传片「MEGVII旷视聚焦“AI in Physical”,让AI向实而生」
在这场行业前沿的科技盛会上,作为一家生于中关村、长在中关村的企业,旷视科技展示了推动人工智能技术创新、产业落地的最新思考与实践成果。“AI in Physical”构建全栈式技术...
日期:02-26
《长安十二时辰》对决《陈情令》 其实是饭圈女孩与路人的battle_陈情令百科百科
  今年的暑期档热闹非凡,期待已久的《长安十二时辰》与《陈情令》同期开播,易烊千玺、肖战、王一博同时PK,追剧女孩一时竟不知道该换哪个老公,沙雕网友们也没闲着,一边脑洞大...
日期:03-25
百度地图道路导航「百度地图车道级导航率先覆盖超100座城市 明年覆盖全国」
快科技12月31日消息,百度地图官方宣布,百度地图车道级导航已率先覆盖超100座城市,将在2024年内实现全国覆盖。lightning接口 iphone12蔚小理8月销量不同于高、快速路仅需汇入汇...
日期:12-31
腾讯音乐第二季度营收69.1亿元 净利润同比增长3.5%_腾讯音乐收入占比
对于跨境电商的客户管理有哪些步骤关于新型冠状病毒肺炎的治疗场所搜狗输入法塞班下载 查看最新行情   讯 北京时间8月16日凌晨消息,腾讯音乐(NYSE:TME)今...
日期:08-17
OPPO ColorOS全球创客大赛总决赛在即 加速潘塔纳尔生态成型_oppo软件创新大赛
北京时间12月11日,以潘塔纳尔:泛在服务,智慧生活为主题,2023OPPOColorOS全球创客大赛将在吉隆坡举行总决赛。届时入围决赛的全球前十团队将展开决赛路演,由OPPO资深技术团队,以及...
日期:12-09
iOS 17被曝出现Wi-Fi连接问题 iPhone 15系列尤其严重_宁晋县宁博源食品厂
近日,海外媒体报道,有苹果用户表示,在升级到iPhone 15 Pro或者iOS 17后,出现Wi-Fi连接缓慢的问题,尤其是iPhone 15系列机型上更为严重。据了解,许多苹果用户反映,自从升级到iPhone...
日期:10-07
5g运营商投入多少_我国运营商5G投资超4016亿元:5G资费很难大降了
.tech-quotation{padding:20px 20px 0px;background:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom...
日期:08-17
系列十年最大变革:苹果明年将推出“Watch X”手表
快科技8月14日消息,根据MacRumors消息,苹果正在计划对Apple Watch进行一次大规模的重新设计。这次重新设计,将在2024年至2025年左右推出一款名为Apple Watch X的产品,带来系列推...
日期:08-14
小而美又行了?魅族20系列成3000元档周线上销量第一_魅族20周年
魅族20系列在3000元到4000元价位段的周线上销售额已经成为了全品牌第一,同时,在4000元到5000元价位段,魅族20系列的周线上销售额也已经成为了安卓阵营的第二名,这是魅族官方今天...
日期:04-19