您的位置:首页 > 互联网

图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape「自适应优化算法有哪些」

发布时间:2023-08-23 21:00:19  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】谷歌最新提出的自适应计算模型,能够提升图像识别性能。

自适应计算(adaptive computation)是指ML统根据环境变化调整其行为的能力。

传统神经网络具有固定的功能和计算能力,即用相同数量的FLOP来处理不同的输入。

但具有自适应和动态计算的模型,根据输入的复杂性调节其专用于处理每个输入的计算预算。

神经网络中的自适应计算之所以吸引人,有两个关键原因。

首先,引入自适应的机制提供了一种归纳偏差,可以在解决一些具有挑战性的任务中发挥关键作用。

例如,为不同的输入启用不同数量的计算步骤对于解决需要对不同深度的层次结构进行建模的算术问题至关重要。

其次,它使从业者能够通过动态计算,提供的更大灵活性来调整推理成本。

来自谷歌团队发表的论文中,介绍了一种全新自适应计算的新模型——AdaTape。

自适应优化算法

论文地址:https://arxiv.org/pdf/2301.13195.pdf

最新模型是基于Transverter架构,用动态tape token和自适应Tape读取算法来生成输入序列,可提高图像识别任务的性能。

AdaTape使用自适应tape读取机制,来确定根据输入的复杂性,添加到每个输入中的不同数量的tape token。

AdaTape实现起来非常简单,在需要时提供了一个有效的knob来提高准确性。

与其他自适应基线相比,AdaTape也更高效,因为它直接将适应性注入输入序列而不是模型深度。

最后,Adatape在标准任务(如图像分类)以及算法任务上提供了更好的性能,同时保持良好的质量和成本权衡。

弹性输入序列的自适应计算

AdaTape使用自适应函数类型和动态计算预算。

具体来说,对于分词后的一批输入序列,AdaTape使用表示每个输入的向量来动态选择可变大小的tape token序列。

AdaTape使用称为「tape bank」的token库,来存储通过自适应tape读取机制与模型交互的所有候选tape token。

研究人员称,创建tape库的2种不同方法:输入驱动库和可学习库。

输入驱动库的总体思想,是从输入中提取一组token库,同时采用与原始模型分词器不同的方法,将原始输入映射到一系列输入token序列。

这使得动态、按需访问从使用不同图像分辨率获得的输入信息。

自适应优化算法有哪些

AdaTape整体架构

在某些情况下,由于不同抽象级别的分词化是不可能的,因此输入驱动的tape库是不可行的。

例如当很难进一步拆分图Transformer中的每个节点时。

为了解决这个问题,AdaTape提供了一种更通用的方法,通过使用一组可训练向量作为tape token来生成tape库。

这种方法被称为「可学习库」,可以被视为嵌入层,其中模型可以根据输入示例的复杂性动态检索token。

可学习库使AdaTape能够生成更灵活的tape库,使其能够根据每个输入示例的复杂性动态调整其计算预算。

例如,更复杂的示例从库中检索更多token,这使得模型不仅使用存储在库中的知识,而且花费更多的FLOP来处理它,因为输入现在更大了。

最后,选定的tape token被附加到原始输入,并馈送到以下Transformer层。

对于每个Transformer层,在所有输入和tape token上使用相同的多头注意力。

但是,使用了两种不同的前馈网络(FFN):一种用于来自原始输入的所有token,另一种用于所有tape token。

研究人员观察到,通过对输入和tape token使用单独前馈网络,质量略好一些。

归纳偏差

我们在奇偶校验上评估AdaTape,这对标准Transformer来说是一项非常具有挑战性的任务,以研究AdaTape中归纳偏差的影响。

对于奇偶校验任务,给定序列1、0和-1,模型必须预测序列中1的数量的均匀性或奇异性。

奇偶校验是周期性正则语言,但也许令人惊讶的是,这项任务是标准Transformer无法解决的。

自适应优化算法有哪些

对奇偶校验任务的评估

尽管在短而简单的序列上进行了评估,但标准Transformer和通用Transformer都无法执行奇偶校验任务,因为它们无法在模型中维护计数器。

然而,AdaTape的性能优于所有基线,因为它在其输入选择机制中结合了轻量级递归,提供了归纳偏差,可以隐式维护计数器,这在标准Transformer中是不可能的。

图像分类评估

就图像分类任务,研究人员在ImageNet-1K上从头开始训练AdaTape。

下图显示了AdaTape和基线方法的准确性,包括A-ViT和通用Transformer ViT(UViT和U2T)与其速度(以每秒每个代码处理的图像数量衡量)。

公司发展困境

在质量和成本权衡方面,AdaTape的表现,比替代的自适应Transformer基线要好得多。

在效率方面,较大的AdaTape模型(就参数计数而言)比较小的基线更快。

自适应优化算法

通过在ImageNet上从头开始训练来评估AdaTape

这样的结果与之前的研究发现一致,即自适应模型深度架构不太适合许多加速器,如TPU。

对AdaTape行为研究

富士康2020年搬到印度

电视整机报告

除了测试在奇偶校验任务和ImageNet-1K上的性能,研究人员还评估了AdaTape在JFT-300M验证集上,使用输入驱动库的token选择行为。

为了更好地理解模型的行为,将输入驱动库上的token选择结果可视化为热图,其中较浅的颜色意味着位置被更频繁地选择。

热图显示AdaTape更频繁地选择中心patch。

这同样符合先验知识,因为中心patch通常信息更丰富。

尤其是在自然图像数据集的上下文中,其中主要对象位于图像中间。

这一结果凸显了AdaTape的智能性,因为它可以有效地识别和优先考虑更多信息patch,以提高其性能。

自适应优化算法有哪些

可视化AdaTape-B/32(左)和AdaTape-B/16(右)的tape token选择热图

AdaTape的特点是,自适应tape读取机制产生的弹性序列长度。

这也引入了一种新的感应偏置,使AdaTape有潜力解决,对标准Transformer和现有自适应Transformer都具有挑战性的任务。

通过对图像识别基准进行综合实验,研究证明,当计算保持不变时,AdaTape优于标准和自适应Transformer。

作者介绍

尤洋目前是新加坡国立大学校长青年教授。

2021年4月,入选亚洲福布斯30岁以下精英榜。他曾获得了清华大学计算机系获得硕士学位,还获得了美国加利福尼亚大学伯克利分校计算机系获得博士学位。

参考资料:

https://ai.googleblog.com/2023/08/adatape-foundation-model-with-adaptive.html


返回网站首页

本文评论
摩托罗拉移动技术_摩托罗拉移动孟樸:移动计算跨入全民时代
【赛迪网讯】每年的世界电信日,都是移动行业回顾既往和把脉未来的时刻。而在今年,我们听到的好消息比以往任何时候都要多——Wireless Intelligence数据显示,2010年全球3G用户...
日期:07-27
百度网盘:用户数突破8亿 用户存储数据总量超1000亿GB「百度网盘登录数量」
11月25日 消息:今年是百度网盘十周年,百度今日公布数据称,截至目前,百度网盘用户数已突破8亿,用户存储数据总量已超过1000亿GB,年均增长60%。百度网盘通过手表、车机、耳机等共计...
日期:11-30
刘烨晚会嗑瓜子「刘烨分了一把瓜子给易烊千玺上热搜  网友:不愧是嗑瓜子大王」
刘烨是娱乐圈中出了名的“嗑瓜子大王”,即使是在如此正式的华表奖现场,他也不忘在西装口袋里藏上一把瓜子。更令观众感到惊奇的是,他还慷慨地与易烊千玺分享了这些瓜子。澎湃s1...
日期:05-24
在小红书上做哪些副业,月入10w不是梦_小红书有什么工作
声明:本文来自于微信公众号 楠开口(ID:nnvoice),作者:楠开口,授权转载发布。最近收到之前品牌医生的会员给到的成长反馈,特别为她开心。原本做小红书账号为了给自己的品牌引流卖...
日期:12-14
交通运输部:加快推进网约车合规化,开展平台抽成“阳光行动”
  1 月 28 日消息,据交通运输部微信公众号消息,1 月 27 日,交通运输新业态协同监管部际联席会议召开 2022 年第一次全体会议,总结 2021 年工作情况,研究部署 2022 年工作安排...
日期:07-17
西藏第一高山「西藏境内发现亚洲第一高树 高度达到102.3米」
据西藏自治区林草局消息,5月26日,由北京大学领导的联合调查组在雅鲁藏布国家级自然保护区内的林芝市波密县通麦镇发现了一棵高达102.3米的西藏柏木。这棵树打破了世界最高树种...
日期:05-26
京东到家预售「京东到家、京东小时购发布《京东11.11即时买菜图鉴》」
11月7日消息,今年京东11.11,低价好菜小时达成为新潮流,开门红当天,“一分钱买菜”带动生鲜、快消品类订单环比增长40%。据此,京东到家、京东小时购依托买菜消费数据发布《京东11....
日期:11-13
“悄悄”运营抖音商城后,这个品牌成交额提升4倍「抖音电商销售额」
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:卡思数据,授权转载发布。“抖音电商921好物节期间,我们在抖音商城的单天成交就突破了千万,成交金额/订单数/成交人数较上...
日期:12-02
小米max3京东「小米13 Ultra京东全版本卖断货!很多米粉跟员工要F码」
快科技4月20日消息,网友发现小米13 Ultra在京东全版本都卖断货了,已经很久没有看到这种盛况了。小米集团张宇表示,他发了很多F码给用户,大家最想要的是512GB版本。该机起售价是5...
日期:04-20
单场直播破7亿,靠收租涨粉5000W的“广东夫妇”,为何能持续走红?
声明:本文来自于微信公众号 秋叶大叔(ID:qiuyedashu),作者:秋叶大叔,授权转载发布。2020上半年全球手机市场份额我常常说抖音不好做,太卷。但凡事都有例外,你不行,不代表别人不行。...
日期:11-05
Win11硬件要求提高后 快一半的PC被拒之门外:无法升级_不符合Win11硬件标准?教你如何照样升级Win11
你升级Windows 11系统了吗?乐视还卖手机吗按照微软的说法,Win10、Win11用户合计规模有14亿,显然,Win10依然占大多数。这不仅是因为Win11推出的时间还不到两年,还有一点很关键,Win1...
日期:10-11
DFS集团成为首家被推荐为微信支付小程序“标杆案例”的旅游零售商
  DFS集团为顾客提供微信支付小程序,成为首家被推荐为“标杆案例”(Best in Class)的旅游零售商。DFS同时也参与了微信支付的年度活动──“共创智慧生活”,活动旨在促进无...
日期:06-23
笔记本的功率_笔记本的功率一般是多少
笔记本的功率是指笔记本电脑所能输出的电能,也是其性能的一个重要指标。它直接影响着笔记本的运行速度、响应速度、散热和电池续航能力等方面。在购买笔记本电脑时,我们需要注...
日期:05-28
出了海的腾讯云拿什么跟国际大厂们斗啊?「腾讯云 国外」
2014年9月,新加坡总理李显龙来到深圳,考察了腾讯,马化腾陪同。两人留了一张照片,马化腾用自己的手机为李显龙介绍微信,后者认真听。李显龙上一次来到深圳是1991年,那一年的深圳宝...
日期:08-03
宁德时代回应投资者建议造车 重申公司不会造车
据 7 月 4 日报道,宁德时代(300750)是全球领先的动力电池制造商,但该公司重申不会涉足造车领域,就像台积电是全球最大最先进的半导体制造商,不会自主研发芯片。一加 lcd屏幕宁德时...
日期:07-04
余额宝三季度赚27亿 成盈利超20亿元产品_余额宝三万收益
10月28日 消息:今年三季度,货币市场型基金成为最赚钱的基金品种。其中,余额宝成货币基金“吸金王”,三季度利润达27亿。罗德与施瓦茨网络分析仪Wind数据显示,2022年三季度基金利...
日期:10-31
马斯克:推特大多数广告客户已回归 目前大致实现收支平衡_投资人士劝马斯克:关了推特少说两句吧 你在拖累特斯
4月12日消息,据外媒报道,当地时间周三,推特新老板埃隆·马斯克表示,由于该公司的大多数广告客户已经回归,该公司目前大致实现了收支平衡。2022年10月27日,马斯克以440亿美元价格收...
日期:04-12
苹果m1 x86 arm「苹果M1迈出一大步!Liunx 6.2内核实现广泛支持」
早在2021年,就有开发者迈出第一步,让Linux初步支持了苹果的M1处理器,在当时,该项目的开发者表示,虽然实现广泛支持还需要时间,但进展顺利。出乎预料的是,这一句需要时间”,却带来了...
日期:03-01
京东更新双11活动总则「京东双十一活动内容」
10月9日消息,京东平台日前发布11.11活动总则(更新版)(以下简称规则)。更新后,本次京东11.11将开启双档位促销活动,分别为每299元减50元促销(优惠封顶40,000元,全品类均可参与)和每100...
日期:10-11
巴菲特55年来打新赚8亿美元 曾称中彩票不是真投资
(ChinaZ.com) 9月17日 消息:真香也许会迟到,但永远不会缺席!巴菲特刚刚从他曾经嘲笑的一种投资中赚了 8 亿美元,而且是在一夜之间。据外媒报道,美东时间周三,获巴菲特加持的云计...
日期:08-01