您的位置:首页 > 互联网

大模型被偷家!腾讯港中文新研究修正认知:CNN搞多模态不弱于Transfromer

发布时间:2023-12-25 20:22:36  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:量子位,授权转载发布。

在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。

腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。

切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越SOTA。

团队提出了专门用于大核CNN架构设计的四条guideline和一种名为UniRepLKNet的强力backbone。

只要用ImageNet-22K对其进行预训练,精度和速度就都能成为SOTA——

ImageNet达到88%,COCO达到56.4box AP,ADE20K达到55.6mIoU,实际测速优势很大。

在时序预测的超大数据上使用UniRepLKNet,也能达到最佳水平——

视频面试二面

例如在全球气温和风速预测上,它就超越了Nature子刊上基于Transformer的前SOTA。

更多细节,我们接着看作者投稿。

“Transformer时代”,为什么还需要CNN

在正式介绍UniRepLKNet的原理之前,作者首先解答了两个问题。

第一个问题是,为什么在Transformer大一统各个模态的时代还要研究CNN?

作者认为,Transformer和CNN只不过是相互交融的两种结构设计思路罢了,没有理由认为前者具有本质的优越性。

“Transformer大一统各个模态”正是研究团队试图修正的认知。

正如2022年初ConvNeXt、RepLKNet和另外一些工作问世之前,“Transformer在图像任务上吊打CNN”是主流认知。

这几项成果出现后,这一认知被修正为“CNN和Transformer在图像任务上差不多”。

本研究团队的成果将其进一步修正:在点云、音频、视频上,CNN比我们想象的强太多了。

在时序预测这种并不是CNN传统强项的领域(LSTM等曾是主流,最近两年Transformer越来越多),CNN都能超过Transformer,成功将其“偷家”。

因此,研究团队认为,CNN在大一统这一点上可能不弱于Transformer。

第二个问题是,如何将一个为图像任务设计的CNN用于音频、视频、点云、时序数据?

出于对简洁和通用性的永恒追求,将UniRepLKNet用于其他模态时,不对模型架构主体做任何改变(以下实验用的全都是UniRepLKNet-Small)。

只需要将视频、音频、点云、时序数据给处理成C×H×W的embedding map(对于图像来说,C=3),就能实现到其他模态的过渡,例如:

  • 把音频的频谱图(Time×Frequency)看成是一幅单通道图像,即C=1,H=T,W=F;

  • 将点云进行三视图投影,得到三幅单通道图像,C=3,H和W可以随意指定;

  • 将视频中的各帧拼接到一起,极为简单地得到一张大图(例如,16帧的3×224×224视频拼接得到3×896×896的输入);

  • 对时序数据,借鉴CorrFormer中的embedding layer将数据转换为隐空间中的张量然后简单粗暴地将其reshape成一幅单通道图像。

后文展示的结果将会证明,如此简单的设计产生的效果是极为优秀的。

大卷积核CNN架构设计

2022年,RepLKNet提出了用超大卷积核(从13×13到31×31)来构建现代CNN以及正确使用超大卷积核的几个设计原则。

但从架构层面看,RepLKNet只是简单地用了Swin Transformer的整体架构,并没有做什么改动。

当前大核CNN架构设计要么遵循现有的CNN设计原则,要么遵循现有的Transformer设计原则。

在传统的卷积网络架构设计中,当研究者向网络中添加一个3×3或5×5卷积层时,往往会期望它同时产生三个作用:

  • 增大感受野

  • 提高抽象层次,例如从线条到纹理、从纹理到物体的局部

  • 通过增加深度而一般地提高表征能力(越深,参数越多,非线性越多,拟合能力越高)

那么,设计大卷积核CNN架构时,应该遵循怎样的原则呢?

本文指出,应该解耦上述三种要素,需要什么效果就用对应的结构来实现:

  • 用少量大卷积核保证大感受野。

  • 用depthwise3×3等小卷积提高特征抽象层次。

  • 用一些高效结构(如SE Block、Bottleneck structure等)来提高模型的深度从而增强其一般的表示能力。

这样的解耦之所以能够实现,正是大卷积核的本质优势所保证的,即不依赖深度堆叠的大感受野。

经过系统研究,本文提出了大卷积核CNN设计的四条Architectural Guidelines。

根据这些guideline,本文提出的UniRepLKNet模型结构如下——

每个block主要由depthwise conv、SE Block和FFN三个部分组成。

其中depthwise conv可以是大卷积核(图中所示的Dilated Reparam Block,其使用膨胀卷积来辅助大核卷积来捕捉稀疏的特征而且可以通过结构重参数化方法等价转换为一个卷积层),也可以只是depthwise3x3。

多项表现超越Transformer

作为图像模态中的老三样,ImageNet、COCO、ADE20K上的结果自然是不能少。论文中最多只用ImageNet-22K预训练,没有用更大的数据。

虽然大核CNN本来不是很重视ImageNet(因为图像分类任务对表征能力和感受野的要求不高,发挥不出大kernel的潜力),但UniRepLKNet还是超过了最新的诸多模型,其实际测速的结果尤为喜人。

例如,UniRepLKNet-XL的ImageNet精度达到88%,而且实际速度是DeiT III-L的三倍。量级较小的UniRepLKNet相对于FastViT等专门设计的轻量级模型的优势也非常明显。

在COCO目标检测任务上,UniRepLKNet最强大的竞争者是InternImage:

UniRepLKNet-L在COCO上不及InternImage-L,但是UniRepLKnet-XL超过了InternImage-XL。

考虑到InternImage团队在目标检测领域的积淀非常深厚,这一效果也算很不容易了。

在ADE20K语义分割上,UniRepLKNet的优势相当显著,最高达到55.6的mIoU。与ConvNeXt-XL相比超出了整整1.6。

为了验证UniRepLKNet处理时序数据的能力,本文挑战了一个数据规模超大的《Nature》级别的任务:全球气温和风速预测。

尽管UniRepLKNet本来是为面向图像任务设计的,它却能超过为这个任务而设计的CorrFormer(前SOTA)。

这一发现尤为有趣,因为这种超大规模时间序列预测任务听起来更适合LSTM、GNN和Transformer,这次CNN却将其“偷家”了。

在音频、视频和点云任务上,本文的极简处理方法也都十分有效。

One More Thing

马斯克与推特ceo

除了提出一种在图像上非常强力的backbone之外,本文所报告的这些发现似乎表明,大核CNN的潜力还没有得到完全开发。

即便在Transformer的理论强项——“大一统建模能力”上,大核CNN也比我们所想象的更为强大。

本文也报告了相关的证据:将kernel size从13减为11,这四个模态上的性能都发生了显著降低。

此外,作者已经放出了所有代码,并将所有模型和实验脚本开源。

论文地址:

https://arxiv.org/abs/2311.15599


返回网站首页

本文评论
中兴通讯与中国电信共同发布5G-A十大创新场景_中国电信 中兴通讯
【网易科技12月20日报道】近日,中兴通讯、中国电信在“网融新篇,数智新程,5G-A创新成果发布会”上,揭晓了5G-A十大创新场景。据悉,中兴通讯携手中国电信与产业链伙伴共同完成了一...
日期:12-20
联动《崩坏3》引热议 CoCo奶茶因联名周边争议致歉:免费送_崩坏3联动过的品牌
9月27日消息,日前,知名奶茶品牌CoCo宣布联动《崩坏3》,但有很多网友反馈称,联名活动需额外收费才能获取周边,对此,CoCo官微回应称套餐附带的周边均为免费赠送,显示的价格会在付费时...
日期:09-28
马斯克分享猎鹰9号火箭“死亡俯冲”的视频_猎鹰9号运载火箭回收视频
据CNET报道,SpaceX正在发射如此多的猎鹰9号火箭任务,它们几乎是例行公事。但是,有时人们可能对一项任务产生新的看法。周四,SpaceX 创始人埃隆·马斯克 (Elon Musk)在Twitter上...
日期:10-09
致渠道合作伙伴:齐心携手,一往无前!
  本文作者李光明,戴尔科技集团大中华区商用渠道战略及项目管理高级总监   过去一年,数字化转型的步伐已经超出了我们所有人的预期,并且没有放缓的迹象。   我们与渠道...
日期:07-16
电商价格战再次打响!京东/拼多多/淘宝同推百亿补贴:谁能笑到最后?
电商价格战,再度打响了。要说618、双11、双12,大伙已经司空见惯,但这个38女神节”,却激起了京东、淘宝和拼多多三大平台的刺刀见红”。显然,今年的电商大促,比过去都要来的早一些...
日期:03-05
降价进店顾客翻数倍 小鹏/问界受冲击!特斯拉:希望更多国人能开上
特斯拉中国大降价后,进店顾客翻数倍,这给友商也是带来了很大的压力。组装电脑怎么连线1月16日,距离特斯拉大幅下调国产车型价格已过去了10天。国产特斯拉Model 3降至22.99万元...
日期:01-20
马斯克接手后特朗普发声明将重返推特?外媒撤回报道并道歉:假声明
  【环球网报道】马斯克当地时间27日完成收购推特交易的消息引发媒体关注,很快,一份“特朗普庆祝马斯克收购推特”的声明在网络上开始疯传,一些外国媒体也转引这份声明称,“特...
日期:10-28
感受讯飞输入法的黑科技_讯飞智能键盘中关村深度测评 诠释AI时代的打字黑科技
  科大讯飞的智能硬件产品高端、强大、智能的形象一直以来都深入人心。无论是翻译机、智能鼠标还是录音笔都是行业内的佼佼者。作为走在AI硬件前沿的大国品牌,科大讯飞近...
日期:07-14
ipadpro11寸会上miniled「苹果或已搁置迄今为止最大14.1英寸mini-LED面板iPad Pro发布计划」
12月30日消息:苹果公司不再计划在2023年初推出配备mini-LED显示屏的14.1英寸iPad Pro,这与今年早些时候的计划有所改变。今年6月,可靠的显示器分析师Ross Young报告说,配备mini...
日期:12-30
大麦网:免除疫情期间商家已售或退票部分佣金(疫情大麦网演出票退款了吗?)
  2月4日消息 今日下午,阿里巴巴旗下大麦网发布致合作伙伴的一封公开信,表示疫情期间将为商家提供佣金减免、提前返款、金融支持等多项服务。   公开信指出,自1月20日至2...
日期:02-08
英国“史瑞克”网骗数百女性得款超百万英镑
  中新网5月20日电据香港《星岛日报》二十日报道,被称为卡通怪物“史瑞克”的网上约会骗子基迪,因为骗取多名寂寞女性的金钱,包括律师、医生、基 金经理以至家庭主妇等,遍及...
日期:07-29
自研卫星通信对标华为Mate 60!荣耀Magic6系列获3C认证_华为发射全球首颗6g卫星概念股
快科技11月29日消息,日前,荣耀一款型号为BVL-AN00的5G手机通过国家质量3C认证,据厂长是关同学”等多位数码博主消息,该机正是荣耀Magic6。认证信息显示,该机由长沙比亚迪电子代工...
日期:11-29
人人视频遭奈飞、索尼、迪士尼等多家海外影视公司起诉
2月5日消息,据天眼查App显示,近期,人人视频关联主体公司上海众多美网络科技有限公司新增多个开庭公告,案由涉及“著作权权属、侵权纠纷”“侵害作品信息网络传播权纠纷”等。天...
日期:02-05
马斯克晒娃「AI生成马斯克婴儿照疯传 本人幽默回应:我可能药吃多了」
快科技6月6日消息,近日,一张AI生成的马斯克婴儿照片在社交媒体上疯传,引发网友热议,并得到特斯拉CEO本人的回应。据了解,这张照片是由一个账户名为Not Jerome Powel”的网友分享...
日期:06-06
升腾ai概念股「昇腾人工智能产业高峰论坛顺利举办」
通信世界网消息(CWW)2023年7月6日,昇腾人工智能产业高峰论坛在上海举办。论坛现场,大模型联合创新启动,26家行业领军企业、科研院所与华为将共同基于昇腾AI进行基础大模型与行业...
日期:07-07
宝马mini车展冰激凌最低35元一杯 在上海有10多家门店「宝马迷你车展」
最近,有网友爆料上海车展MINI展台疑似对访客有所区别对待,引起了网友的关注。经搜索发现,该展台派发的是“luneurs冰淇淋”。有截图显示MINI中国账号 18 日曾在微博上宣布,luneu...
日期:04-20
上海掀起租地种菜热:1500元一年 网友:地贵了_上海郊区种菜土地怎么租
近年,上海悄然流行起“共享菜园”的生意,让市民可以再市郊租一块土地,享受自己动手种植菜的乐趣。闵行一家“共享菜园”的经营者表示,收费标准为每100㎡年租金1500元,最低租用面...
日期:02-09
科学家利用 AI 发现 60 多年来首个新抗生素:有望对抗耐药性感染_新型抗生素药物
12 月 21 日消息:事实证明,人工智能 (AI) 的使用将改变医学领域的游戏规则,目前该技术正在帮助科学家开发出 60 年来首个新型抗生素。人工智能(AI)技术的应用在医学领域取得了重...
日期:12-21
2023胡润全球独角兽榜:前十名中国占五席 字节跳动蝉联第一
4月19日消息,据胡润百富官网消息,昨日,胡润研究院发布《2023全球独角兽榜》,列出了全球成立于2000年之后,价值10亿美元以上的非上市公司,榜单估值计算截至日期为2022年12月31日。...
日期:04-19
OPPO A79 5G手机通过多项认证,4880mAh电池 33W快速充电,搭载ColorOS 13.1
据gizmochina网站报道,OPPO A79 5G手机已经通过多项海外设备认证,预示这款中端新品即将上市。目前,该设备代号为“CPH2557”,将配备4880mAh电池组和33W快速充电。认证显示,这款新...
日期:09-27