您的位置:首页 > 互联网

小模型也可以分割一切,Meta改进SAM,参数仅为原版5%_meshmixer切割模型

发布时间:2023-12-07 10:38:21  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍、蛋酱,授权转载发布。

对于2023年的计算机视觉领域来说,分割一切(Segment Anything Model)是备受关注的一项研究进展。

显示器 创维

Meta四月份发布的分割一切模型(SAM)效果,它能很好地自动分割图像中的所有内容

新买的一加11要不要升级

Segment Anything 的关键特征是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自1100万张图像的超过10亿个掩码的视觉数据集 SA-1B 上训练的,可以分割给定图像上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型,并在超出视觉之外的领域也能产生应用价值。

尽管有上述优点,但由于 SAM 中的 ViT-H 图像编码器有632M 个参数(基于提示的解码器只需要387M 个参数),因此实际使用 SAM 执行任何分割任务的计算和内存成本都很高,这对实时应用来说具有挑战性。后续,研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

在最近的一项研究中,Meta 研究者提出了另外一种改进思路 —— 利用 SAM 的掩码图像预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的,以获得高质量的预训练 ViT 编码器。

  • 论文链接:https://arxiv.org/pdf/2312.00863.pdf

  • 论文主页:https://yformer.github.io/efficient-sam/

这一方法降低了 SAM 的复杂性,同时能够保持良好的性能。具体来说,SAMI 利用 SAM 编码器 ViT-H 生成特征嵌入,并用轻量级编码器训练掩码图像模型,从而从 SAM 的 ViT-H 而不是图像补丁重建特征,产生的通用 ViT 骨干可用于下游任务,如图像分类、物体检测和分割等。然后,研究者利用 SAM 解码器对预训练的轻量级编码器进行微调,以完成任何分割任务。

为了评估该方法,研究者采用了掩码图像预训练的迁移学习设置,即首先在图像分辨率为224×224的 ImageNet 上使用重构损失对模型进行预训练,然后使用监督数据在目标任务上对模型进行微调。

通过 SAMI 预训练,可以在 ImageNet-1K 上训练 ViT-Tiny/-Small/-Base 等模型,并提高泛化性能。对于 ViT-Small 模型,研究者在 ImageNet-1K 上进行100次微调后,其 Top-1准确率达到82.7%,优于其他最先进的图像预训练基线。

研究者在目标检测、实例分割和语义分割上对预训练模型进行了微调。在所有这些任务中,本文方法都取得了比其他预训练基线更好的结果,更重要的是在小模型上获得了显著收益。

论文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 参数减少了20倍,但运行时间快了20倍,只与原始 SAM 模型的差距在2个百分点以内,大大优于 MobileSAM/FastSAM。

模型分割软件

在 demo 演示中,点击图片中的动物,EfficientSAM 就能快速将物体进行分割:

EfficientSAM 还能准确标定出图片中的人:

试玩地址:https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含两个阶段:1)在 ImageNet 上对 SAMI 进行预训练(上);2)在 SA-1B 上微调 SAM(下)。

EfficientSAM 主要包含以下组件:

交叉注意力解码器:在 SAM 特征的监督下,本文观察到只有掩码 token 需要通过解码器重建,而编码器的输出可以在重建过程中充当锚点(anchors)。在交叉注意力解码器中,查询来自于掩码 token,键和值源自编码器的未掩码特征和掩码特征。本文将来自交叉注意力解码器掩码 token 的输出特征和来自编码器的未掩码 token 的输出特征进行合并,以进行 MAE 输出嵌入。然后,这些组合特征将被重新排序到最终 MAE 输出的输入图像 token 的原始位置。

线性投影头。研究者通过编码器和交叉注意力解码器获得的图像输出,接下来将这些特征输入到一个小型项目头(project head)中,以对齐 SAM 图像编码器中的特征。为简单起见,本文仅使用线性投影头来解决 SAM 图像编码器和 MAE 输出之间的特征维度不匹配问题。

magics分割模型

重建损失。在每次训练迭代中,SAMI 包括来自 SAM 图像编码器的前向特征提取以及 MAE 的前向和反向传播过程。来自 SAM 图像编码器和 MAE 线性投影头的输出会进行比较,从而计算重建损失。

经过预训练,编码器可以对各种视觉任务的特征表示进行提取,而且解码器也会被废弃。特别是,为了构建用于分割任何任务的高效 SAM 模型,本文采用 SAMI 预训练的轻量级编码器(例如 ViT-Tiny 和 ViT-Small)作为 EfficientSAM 的图像编码器和 SAM 的默认掩码解码器,如图所示2(底部)。本文在 SA-1B 数据集上对 EfficientSAM 模型进行微调,以实现分割任何任务。

实验

图像分类。为了评估本文方法在图像分类任务上的有效性,研究者将 SAMI 思想应用于 ViT 模型,并比较它们在 ImageNet-1K 上的性能。

如表1将 SAMI 与 MAE、iBOT、CAE 和 BEiT 等预训练方法以及 DeiT 和 SSTA 等蒸馏方法进行了比较。

SAMI-B 的 top1准确率达到84.8%,比预训练基线、MAE、DMAE、iBOT、CAE 和 BEiT 都高。与 DeiT 和 SSTA 等蒸馏方法相比,SAMI 也显示出较大的改进。对于 ViT-Tiny 和 ViT-Small 等轻量级模型,SAMI 结果与 DeiT、SSTA、DMAE 和 MAE 相比有显著的增益。

目标检测和实例分割。本文还将经过 SAMI 预训练的 ViT 主干扩展到下游目标检测和实例分割任务上,并将其与在 COCO 数据集上经过预训练的基线进行比较。如表2所示, SAMI 始终优于其他基线的性能。

这些实验结果表明,SAMI 在目标检测和实例分割任务中所提供的预训练检测器主干非常有效。

语义分割。本文进一步将预训练主干扩展到语义分割任务,以评估其有效性。结果如表3所示,使用 SAMI 预训练主干网的 Mask2former 在 ImageNet-1K 上比使用 MAE 预训练的主干网实现了更好的 mIoU。这些实验结果验证了本文提出的技术可以很好地泛化到各种下游任务。

表4将 EfficientSAMs 与 SAM、MobileSAM 和 SAM-MAE-Ti 进行比较。在 COCO 上,EfficientSAM-Ti 的性能优于 MobileSAM。EfficientSAM-Ti 具有 SAMI 预训练权重,也比 MAE 预训练权重表现更好。

此外, EfficientSAM-S 在 COCO box 仅比 SAM 低1.5mIoU,在 LVIS box 上比 SAM 低3.5mIoU,参数减少了20倍。本文还发现,与 MobileSAM 和 SAM-MAE-Ti 相比,EfficientSAM 在多次点击(multiple click)方面也表现出了良好的性能。

表5展示了零样本实例分割的 AP、APS、APM 和 APL。研究者将 EfficientSAM 与 MobileSAM 和 FastSAM 进行了比较,可以看到,与 FastSAM 相比,EfficientSAM-S 在 COCO 上获得了超过6.5个 AP,在 LVIS 上获得了7.8个 AP。就 EffidientSAM-Ti 而言,仍然远远优于 FastSAM,在 COCO 上为4.1个 AP,在 LVIS 上为5.3个 AP,而 MobileSAM 在 COCO 上为3.6个 AP,在 LVIS 上为5.5个 AP。

而且,EfficientSAM 比 FastSAM 轻得多,efficientSAM-Ti 的参数为9.8M,而 FastSAM 的参数为68M。

图3、4、5提供了一些定性结果,以便读者对 EfficientSAMs 的实例分割能力有一个补充性了解。


返回网站首页

本文评论
比亚迪云轨2020年「比亚迪汉、唐车主狂喜!今年内可OTA升级云辇系统 车型一览」
快科技4月13日消息,比亚迪汽车宣布,汉唐预计2023年内推送OTA,升级云辇-C智能阻尼车身控制系统。汉唐支持OTA升级云辇-C车型清单:汉家族:全自动洗衣机发展趋势汉EV冠军版610KM四驱...
日期:04-13
RTX30怎么办?RTX 40系列显卡真来了 最快9月20日发:这性能翻倍「rtx3060显卡降价」
对于不少期待新品的用户来说,9月份手机圈的两大重磅旗舰落地后,接下来就是NV等PC厂商秀肌肉的时刻了。NVIDIA正式揭晓谜底,将在太平洋时间于9月20日早上8点(北京时间9月20日23点...
日期:09-22
这个“宅”年不无聊!好看视频放送千部免费影视,百万套免费直播课程
  近日,为有效减少人员聚集,阻断疫情传播,各地教育部门与院校积极响应教育部《关于2020年春季学期延期开学的通知》,纷纷推迟开学时间。这可愁坏了一众家长们,假期延长,孩子的...
日期:05-04
moto新机渲染图曝光 经典中端机造型搭载后置双摄
【手机中国新闻】在海外市场,moto依然是诸多消费者的购机选择,并且moto在海外的产品也不仅仅局限在旗舰机领域,在中端价位段同样有很多产品可选。近日有外媒曝光了moto全新中端...
日期:08-22
哈啰出行回应公司更名为哈啰普惠:该主体相应业务未做调整「哈啰出行成立是什么时候」
10 月 14 日讯:针对“哈啰出行公司更名为哈啰普惠”一事,哈啰出行方面回应称,该主体相应业务未做调整,相关业务均在稳步推进。如果手机被锁了怎么才能解开...
日期:10-28
离开中国,黄仁勋头也不回?_黄仁勋lori
作者|普子胥出品|网易科技《态℃》栏目飞机飞过天空,夹克战神黄仁勋结束了中国台湾之行,朝着太平洋另一端离去,头也不回。据6月5日最新消息,英伟达CEO黄仁勋现在已返回美国:在此前...
日期:06-06
苹果将在iOS 16.1开放灵动岛给第三方:要求不能打广告
iPhone 14 Pro发布之后,灵动岛成了大家最热议的话题。iphone14有没有刘海拼多多预约苹果13虽然是为了弥补挖孔屏的不足和突兀,但苹果通过一套比较完善的交互UI设计,将挖孔掩盖...
日期:09-29
荣耀自研5G射频芯片解决痛点 iPhone信号为何烂到家-赵明_苹果太敷衍
荣耀新一代旗舰Magic5系列已经来了,这次新机亮点和升级都不少,其中信号上的提升也是一个突出点。Magic5系列这次搭载了荣耀自研的5G射频芯片,官方表示即使弱网场景中,仍有更强通...
日期:09-19
微软正式发布Win10 21H2系统_win10新版本21H2
  (原标题:Win11 的餐前酒,微软正式发布 Win10 21H2 系统 :新增 Wi-Fi WPA3 H2E 标准,WSL 支持 GPU 计算)   微软昨天发布博客文章称,虽然我们对下一代 Windows 11 感到兴奋...
日期:03-07
腾讯多媒体实验室夏珍:视频画质增强的现状、应用、未来
  全真互联时代,音视频技术内核不断更新迭代,LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍,与大家分享画质增强技术的一些前沿探索和应...
日期:04-24
光头强开音乐会、狐璃璃秀夹子音,快手虚拟直播还有哪些新可能?
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。元宇宙的风口继续吹,虚拟直播正在成为直播行业发展新的内容方向。9月初,知名动漫IP《熊出没》中的核心...
日期:09-28
荣耀赵明:将按需制定自研芯片战略,不盲目乐观也不妄自菲薄「荣耀赵明专访」
5月30日消息,“对现在的整个市场的环境来看,智能手机市场2022年大概是2.7亿部,2023年也会是2.6亿上下,有变化,但是不会太大。”荣耀CEO赵明昨日对于2023年中国智能手机市场出货量...
日期:05-30
索尼双层晶体管像素!一加Open折叠屏旗舰曝光_索尼 一加
近日,根据爆料人士OnLeaks的曝光,一加Open折叠屏旗舰的真机照片已经曝光。据悉,这款手机将在海外上市发售,而国行版本将对应OPPO Find N3。 OPPO Find N3采用了环形镜头设计,包括...
日期:10-01
2023年诺贝尔奖今日起揭晓:每项奖金734万元史上最高_21年诺贝尔奖
快科技10月2日消息,按照日程,2023年度诺贝尔奖各奖项名单将从今日(10月2日)起公布,六大奖项将逐次揭晓。回看百年颁奖史,诺贝尔奖累计颁发了615次,约有60名女性收获殊荣。值得注意...
日期:10-02
搭载独家神经元量子点处理器,三星QN85Z新品电视火热开售「85英寸级 三星neo qled 8k光质量子点电视qn900a」
近日,三星新款 Neo QLED 电视QN85Z正式开售,其中, 75 英寸级QN85Z建议零售价21, 999 元, 85 英寸级QN85Z建议零售价28, 999 元。 6 月 26 日起至 7 月 16 日期间,在三星商城购买该...
日期:07-13
“扎克伯格”「7小时1000万注册用户,这一次扎克伯格“抄”到了大家的心坎里」
声明:本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:殷观晓、辛童,授权转载发布。7月6日,Meta 家的“Twitter”竞品,也上线了。该 App 由 Ins 团队研发,同时也基于 Ins 做启...
日期:07-07
加州理工学院起诉苹果博通无线专利侵权可能达成和解
8月11日消息,当地时间周四,原告方美国加州理工学院以及被告方苹果和博通共同提交给美国联邦法院的一份文件显示,双方涉及的Wi-Fi芯片专利侵权一案“有可能达成和解”。此前,加州...
日期:08-11
顺丰控股:7月速运物流业务营业收入147.59亿元 同比增长13.52%_顺丰速运业绩
银隆新能源最大谎言美国太空射电望远镜吉利帝豪最新车型康得新 代码 查看最新行情   财联社8月18日电,顺丰控股公告,7月速运物流业务营业收入147.59亿元,...
日期:08-20
哔哩哔哩将于3月2日发布2022年第四季度及全年财报「哔哩哔哩2020年全年财报」
  讯 北京时间2月14日晚间消息,在线娱乐平台哔哩哔哩(B站,Nasdaq:BILI,HKEX: 9626)今日宣布,将于美国东部时间2023年3月2日美国股市开盘前(北京时间3月2日晚)发布2022年第四季度及...
日期:02-15
年轻人在元宇宙抢购QQ秀 花四位数就P张图?网友直呼割韭菜
随着元宇宙概念的火热,不少人开始给自己买皮肤”了。带透明羽翼的粉色蓬蓬裙、水蓝色的美人鱼大尾巴、赛博朋克风的战袍”这些虚拟服饰每一套都附上了创作故事,探访年轻血液下...
日期:08-03