您的位置:首页 > 互联网

字节跳动视觉设计「字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024」

发布时间:2024-04-27 15:24:24  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:允中,授权转载发布。

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin,专为视觉语言时代设计。

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

字节视觉创意

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。

最终这一成果,入选计算机视觉顶会CVPR2024。

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。

  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。

  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。

  • 第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型。

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。

多项SOTA

在零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。

iphone 我的iphone 文件管理

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。

字节跳动视觉传达

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

论文链接:

https://arxiv.org/pdf/2404.02132.pdf

为什么macbook卖这么贵

项目主页:

字节视觉创意

https://beckschen.github.io/vitamin


返回网站首页

本文评论
谷歌Pixel 8 Pro被锁死了?实际上并非如此
根据最新报道,谷歌已经对Pixel 8 Pro锁定了其温度传感器。只有经过受信任的应用程序的调用才能获取相关数据。当贝X3激光投影仪据了解,开发者如果想要在应用中使用Pixel 8 Pro...
日期:10-22
值得买科技双11战报:5分钟不到GMV破亿_双11战报出炉
11 月 15 日消息,值得买科技集团近日发布 2022 年双 11 大促战报,数据显示, 11 月 10 日 20 点双 11 大促正式开始后,“什么值得买”仅用 4 分 57 秒便实现GMV破亿,用户活跃度进...
日期:11-16
空气能行业首个2022贺岁TVC火爆上线——中广欧特斯,以爱之名,传递品牌温度
  2月1日,空气能行业首部品牌贺岁TVC《暖居》在多个平台正式上线,本部TVC由由热泵行业领军品牌中广欧特斯携手国内自媒体新锐二更倾情打造,真实生活的代入感,两代人之间细腻...
日期:07-10
秒售罄!华为Mate 60 Pro手机在华为商城开启全款销售
今日,华为Mate 60 Pro和华为Mate 60在华为商城再次开启全款销售。据报道称,18时8分点击下单后,屏幕出现进度条显示正在排队中,几秒钟后,排队进度条结束,显示已售罄。自9月3日18时8...
日期:09-11
2023年收官之战!我国成功发射卫星互联网技术试验卫星_2021年发射卫星
快科技12月30日消息,据 中国运载火箭技术研究院”消息,北京时间2023年12月30日8时13分,我国在酒泉卫星发射中心使用长征二号丙运载火箭,成功将卫星互联网技术试验卫星发射升空。...
日期:12-30
男子7300元买巨型移动电源用汽车充电:称不想浪费电_移动电源如何给汽车充电
快科技3月5日消息,据国内媒体报道,杭州的李先生花7300元买了一个巨大的移动电源,放在副驾驶上,开车时通过点烟器给移动电源充电,此事引起网友关注。李先生介绍,他是在网上花了7300...
日期:03-06
供应链消息 苹果对iPhone 15 Pro和Ultra潜望式长焦镜头要求极高
据iPhone供应链企业大立光电消息称,苹果计划将在明年iPhone 15 Ultra旗舰机型上加入潜望式长焦镜头,该供应商已经在内部开始研制潜望式长焦镜头模组,在该模块中,苹果决定放弃塑...
日期:11-08
荣耀20pro发售「荣耀80系列有望11月发 :Pro+版本缺席」
目前双十一大促节已拉开序幕,手机圈也热闹起来,将会有不少新机将赶在双11前发布,荣耀手机这边也有大动作。iphone 14 pro没有卡槽怎么办据数码博主厂长是关同学 ”透露,荣耀将会...
日期:11-12
科大讯飞回应学习机出现不当内容:已下架并对合作伙伴进行了处罚
  封面新闻记者 欧阳宏宇诺基亚新机折叠  10月24日,针对有家长称在自家孩子的科大讯飞学习机中发现一些诋毁伟人、扭曲历史等违背主流价值观的内容,科大讯飞董事长刘庆峰...
日期:10-27
新华三集团电子信息产业园项目「新华三与国家信息中心签署战略合作,携手助力数字中国建设」
通信世界网消息(CWW)8月15日,紫光股份旗下新华三集团与国家信息中心在北京签署战略合作协议。国家信息中心主任刘宇南,国家信息中心副主任周民,国家信息中心公共技术服务部副主任...
日期:08-18
价格更低!比亚迪海豹荣耀版有望3月25日上市
快科技3月24日消息,根据媒体报道,比亚迪海豹荣耀版有望于3月25日上市。这款新车将在配置和价格上进行调整,与此前发布的荣耀版车型相似。目前,比亚迪海豹共推出了5款车型可供选...
日期:03-24
共筑更领先的基础设施,共赴更精彩的数智未来「夯实共享制造发展的数字化基础」
通信世界网消息(CWW)[中国,上海,2023年6月27日] 在中国移动举办的“5G创新引领、数智融合共赢”创新论坛上,华为全球运营商Marketing与解决方案销售部总裁刘康发表了题为“共筑更...
日期:06-28
小度确认将发布智能手机:消息属实,敬请期待_了解小度智能手机
5月8日消息,今日有消息称,百度旗下小度将进军智能手机市场,并计划在5月下旬发布旗下第一款智能手机。沃尔沃汽车体验中心小米青春版性价比高吗对此,小度相关负责人确认:消息属实,...
日期:05-08
作家维权联盟称将再起诉 百度拒和解苹果不理睬
  有着韩寒、慕容雪村、南派三叔等当红作家的参与,作家维权联盟的声势不可谓不强,但是面对百度和苹果这两家业界巨头,他们仍然显得弱势。一家反复无常耍滑头,一家冷漠高傲,这...
日期:07-24
中国网上零售市场规模_中国首个网络零售价格指数发布 电子商务推动消费转型
  昨日,第八届全球网商大会在杭州举行,阿里研究中心在会上发布《网络零售价格指数(iSPI)报告》。网络零售价格指数(iSPI,Internet Shopping Price Index)作为概括网络零售交易商...
日期:07-22
有史以来最防水表面出现,对光学、微流体及烹饪都将产生重要影响
液体状分子层排斥水滴的艺术渲染图。图片来源:叶卡捷琳娜·奥斯梅希娜/阿尔托大学科技日报记者 张梦然芬兰阿尔托大学研究人员在最新一期《自然·化学》上发表了一篇论文,描...
日期:10-25
小心,又一波封号潮正在进行_封号前兆
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。最近几天,在见实会员群和交流群中,不断有运营团队表示自己名下企微账号被封,且频次越来越频繁。其实早...
日期:04-24
天玑820是哪个手机「首款天玑8200 LCD屏手机曝光 月底发布」
今天有消息称本月月底将会亮相一款天玑8200 LCD屏的新机,这是业界唯一一款采用LCD屏的天玑8200机型。新机大几率是Redmi Note系列新品,具体命名未知,预计卢伟冰会在下周正式官...
日期:05-27
美国、俄罗斯的航天员:携手上天
北京时间8月26日15点27分,SpaceX使用猎鹰9号火箭,成功发射了一艘载人龙飞船。这是SpaceX今年的第59次发射任务,使用了全新箭体B1081.1,并在陆上成功回收芯一级。飞船乘组有四人,...
日期:08-27
墨迹天气定制版app_墨迹天气app斩获华为应用市场殊荣
  在近日结束的华为开发者大会2020上,墨迹天气凭借精细化专业气象服务能力赋能华为全场景应用生态的优势,荣获华为应用市场2020鸿蒙系统应用创新合作伙伴殊荣。   在此...
日期:07-16