您的位置:首页 > 互联网

三篇论文解决语义分割的优化和评估难题!鲁汶/清华/牛津等联合提出全新方法

发布时间:2024-02-06 22:19:20  来源:互联网     背景:


新智元报道

编辑:LRS

【新智元导读】现有的语义分割技术在评估指标、损失函数等设计上都存在缺陷,研究人员针对相关缺陷设计了全新的损失函数、评估指标和基准,在多个应用场景下展现了更高的准确性和校准性。

优化语义分割模型常用的损失有Soft Jaccard损失,Soft Dice损失和Soft Tversky损失,但它们都和软标签不兼容,所以无法支持一些重要的训练技术(例如标签平滑,知识蒸馏,半监督学习,多标注员等)。

另一方面,语义分割常用的评价指标有mAcc和mIoU,但是因为它们都会偏向数据集中尺寸较大的物体,所以会严重的影响它们对模型安全性能的评估。

为了解决这些问题,鲁汶大学和清华的研究人员首先提出了JDT损失。JDT损失是原有损失函数的变体,包括了Jaccard Metric损失,Dice Semimetric损失和Compatible Tversky损失。JDT损失在硬标签下与原有的损失函数等价,但能完全兼容软标签。

研究人员将JDT损失应用于软标签的四个重要场景:标签平滑、知识蒸馏、半监督学习和多标注员,展示了它们提高模型准确性和校准性的能力。


论文链接:https://arxiv.org/pdf/2302.05666.pdf


论文链接:https://arxiv.org/pdf/2303.16296.pdf

除此之外,研究人员还提出了细粒度的评价指标。这些细粒度的评价指标对大尺寸物体的偏见较小,能提供更丰富的统计信息,并能为模型和数据集审计提供有价值的见解。

并且,研究人员进行了一项广泛的基准研究,强调了不应基于单个指标进行评估的必要性,并发现了神经网络结构和JDT损失对优化细粒度指标的重要作用。

n1pro手柄游戏厅官网


论文链接:https://arxiv.org/pdf/2310.19252.pdf

代码链接:https://github.com/zifuwanggg/JDTLosses

现有的损失函数

由于Jaccard Index和Dice Score是定义在集合上的,所以并不可导。为了使它们可导,目前常见的做法有两种:一种是利用集合和相应向量的Lp模之间的关系,例如Soft Jaccard损失(SJL),Soft Dice损失(SDL)和Soft Tversky损失(STL)。

它们把集合的大小写成相应向量的L1模,把两个集合的交集写成两个相应向量的内积。另一种则是利用Jaccard Index的submodular性质,在集合函数上做Lovasz拓展,例如Lovasz-Softmax损失(LSL)。


这些损失函数都假定神经网络的输出x是一个连续的向量,而标签y则是一个离散的二值向量。如果标签为软标签,即y不再是一个离散的二值向量,而是一个连续向量时,这些损失函数就不再兼容。

以SJL为例,考虑一个简单的单像素情况:

可以发现,对于任意的y > 0,SJL都将在x = 1时最小化,而在x = 0时最大化。因为一个损失函数应该在x = y时最小化,所以这显然是不合理的。

与软标签兼容的损失函数

为了使原有的损失函数与软标签兼容,需要在计算两个集合的交集和并集时,引入两个集合的对称差:


注意两个集合的对称差可以写成两个相应向量的差的L1模:

把以上综合起来,我们提出了JDT损失。它们分别是SJL的变体Jaccard Metric损失(JML),SDL的变体Dice Semimetric 损失(DML)以及STL的变体Compatible Tversky损失(CTL)。


JDT损失的性质

我们证明了JDT损失有着以下的一些性质。

性质1:JML是一个metric,DML是一个semimetric。

性质2:当y为硬标签时,JML与SJL等价,DML与SDL等价,CTL与STL等价。

性质3:当y为软标签时,JML,DML,CTL都与软标签兼容,即x = y ó f(x,y) = 0。

由于性质1,它们也因此被称为Jaccard Metric损失和Dice Semimetric损失。性质2说明在仅用硬标签进行训练的一般场景下,JDT损失可以直接用来替代现有的损失函数,而不会引起任何的改变。

如何使用JDT损失

我们进行了大量的实验,总结出了使用JDT损失的一些注意事项。

注意1:根据评价指标选择相应的损失函数。如果评价指标是Jaccard Index,那么应该选择JML;如果评价指标是Dice Score,那么应该选择DML;如果想给予假阳性和假阴性不同的权重,那么应该选择CTL。其次,在优化细粒度的评价指标时,JDT损失也应做相应的更改。

注意2:结合JDT损失和像素级的损失函数(例如Cross Entropy损失,Focal损失)。本文发现0.25CE + 0.75JDT一般是一个不错的选择。

注意3:最好采用一个较短的epoch来训练。加上JDT损失后,一般只需要Cross Entropy损失训练时一半的epoch。

注意4:在多个GPU上进行分布式训练时,如果GPU之间没有额外的通信,JDT损失会错误的优化细粒度的评价指标,从而导致其在传统的mIoU上效果变差。

注意5:在极端的类别不平衡的数据集上进行训练时,需注意JDL损失是在每个类别上分别求损失再取平均,这可能会使训练变得不稳定。

实验结果

实验证明,与Cross Entropy损失的基准相比,在用硬标签训练时,加上JDT损失可以有效提高模型的准确性。引入软标签后,可以进一步提高模型的准确性和校准性。


只需在训练时加入JDT损失项,本文取得了语义分割上的知识蒸馏,半监督学习和多标注员的SOTA。




现有的评价指标

语义分割是一个像素级别的分类任务,因此可以计算每个像素的准确率:overall pixel-wise accuracy(Acc)。但因为Acc会偏向于多数类,所以PASCAL VOC 2007采用了分别计算每个类别的像素准确率再取平均的评价指标:mean pixel-wise accuracy(mAcc)。

但由于mAcc不会考虑假阳性,从PASCAL VOC 2008之后,就一直采用平均交并比(per-dataset mIoU, mIoUD)来作为评价指标。PASCAL VOC是最早的引入了语义分割任务的数据集,它使用的评价指标也因此被之后的各个数据集所广泛采用。

具体来说,IoU可以写成:


为了计算mIoUD,我们首先需要对每一个类别c统计其在整个数据集上所有I张照片的true positive(真阳性,TP),false positive(假阳性,FP)和false negative(假阴性,FN):


有了每个类别的数值之后,我们按类别取平均,从而消除对多数类的偏好:


因为mIoUD把整个数据集上所有像素的TP,FP和FN合计在一起,它会不可避免的偏向于那些大尺寸的物体。

在一些对安全要求较高的应用场景中,例如自动驾驶和医疗图像,经常会存在一些尺寸小但是不可忽略的物体。

如下图所示,不同照片上的汽车的大小有着明显的不同。因此,mIoUD对大尺寸物体的偏好会严重的影响其对模型安全性能的评估。


细粒度的评价指标

为了解决mIoUD的问题,我们提出细粒度的评价指标。这些指标在每张照片上分别计算IoU,从而能有效的降低对大尺寸物体的偏好。

mIoUI

对每一个类别c,我们在每一张照片i上分别计算一个IoU:


接着,对每一张照片i,我们把这张照片上出现过的所有类别进行平均:


最后,我们把所有照片的数值再进行平均:


mIoUC

类似的,在计算出每个类别c在每一张照片i上的IoU之后,我们可以把每一个类别c出现过的所有照片进行平均:


最后,把所有类别的数值再进行平均:


由于不是所有的类别都会出现在所有的照片上,所以对于一些类别和照片的组合,会出现NULL值,如下图所示。计算mIoUI时先对类别取平均再对照片取平均,而计算mIoUC时先对照片取平均再对类别取平均。

这样的结果是mIoUI可能会偏向那些出现得很频繁的类别(例如下图的C1),而这一般是不好的。但另一方面,在计算mIoUI时,因为每张照片都有一个IoU数值,这能帮助我们对模型和数据集进行一些审计和分析。


最差情况的评价指标

对于一些很注重安全的应用场景,我们很多时候更关心的是最差情况的分割质量,而细粒度指标的一个好处就是能计算相应的最差情况指标。我们以mIoUC为例,类似的方法也可以计算mIoUI相应的最差情况指标。

对于每一个类别c,我们首先把其出现过的所有照片(假设有Ic个这样的照片)的IoU数值进行升序排序。接着,我们设q为一个很小的数字,例如1或者5。然后,我们仅用排序好的前Ic * q%张照片来计算最后的数值:

有了每个类c的数值之后,我们可以像之前那样按类别取平均,从而得到mIoUC的最差情况指标。

实验结果

我们在12个数据集上训练了15个模型,发现了如下的一些现象。

现象1:没有一个模型在所有的评价指标上都能取得最好的效果。每个评价指标都有着不同的侧重点,因此我们需要同时考虑多个评价指标来进行综合的评估。

现象2:一些数据集上存在部分照片使得几乎所有的模型都取得一个很低的IoU数值。这一方面是因为这些照片本身就很有挑战性,例如一些很小的物体和强烈的明暗对比,另一方面也是因为这些照片的标签存在问题。因此,细粒度的评价指标能帮助我们进行模型审计(发现模型会犯错的场景)和数据集审计(发现错误的标签)。

现象3:神经网络的结构对优化细粒度的评价指标有着至关重要的作用。一方面,由ASPP(被DeepLabV3和DeepLabV3+采用)等结构所带来的感受野的提升能帮助模型识别出大尺寸的物体,从而能有效提高mIoUD的数值;另一方面,encoder和decoder之间的长连接(被UNet和DeepLabV3+采用)能使模型识别出小尺寸的物体,从而提高细粒度评价指标的数值。

现象4:最差情况指标的数值远远低于相应的平均指标的数值。下表展示了DeepLabV3-ResNet101在多个数据集上的mIoUC和相应的最差情况指标的数值。一个值得以后考虑的问题是,我们应该如何设计神经网络结构和优化方法来提高模型在最差情况指标下的表现?


现象5:损失函数对优化细粒度的评价指标有着至关重要的作用。与Cross Entropy损失的基准相比,如下表的(0,0,0)所示,当评价指标变得细粒度,使用相应的损失函数能极大的提升模型在细粒度评价指标上的性能。例如,在ADE20K上,JML和Cross Entropy损失的mIoUC的差别会大于7%。


未来工作

我们只考虑了JDT损失作为语义分割上的损失函数,但它们也可以应用在其他的任务上,例如传统的分类任务。

其次,JDT损失只被用在标签空间中,但我们认为它们能被用于最小化任意两个向量在特征空间上的距离,例如用来替代Lp模和cosine距离。

参考资料:

https://arxiv.org/pdf/2302.05666.pdf

https://arxiv.org/pdf/2303.16296.pdf

https://arxiv.org/pdf/2310.19252.pdf


返回网站首页

本文评论
尚乘数科股票_万亿市值的尚乘数科,开启暴跌模式
21世纪经济报道见习记者李强 董静怡 北京报道   “史诗级妖股”尚乘数科成为市场的热议话题。   在登陆美股后半个月后,尚乘数科股价一路暴涨,市值一度突破3000亿美元。一...
日期:08-06
华为品牌商标_华为申请 Huawei S-Tag 商标
  11 月 1 日消息,据 LetsGoDigital 报道,10 月 28 日,华为技术有限公司向欧盟知识产权局(EUIPO)申请了“Huawei S-Tag”商标。   “Huawei S-Tag”商标说明为:智能手表;...
日期:07-17
百度Apollo:极狐汽车再交付200台共享无人车Apollo Moon「百度apollo无人车价格」
10月9日 消息:百度Apollo宣布,近日,极狐汽车向百度Apollo再交付200台第五代共享无人车 Apollo Moon,萝卜快跑运力持续提升。surface全屏据百度集团资深副总裁、智能驾驶事业群...
日期:10-10
特斯拉股价破亿「特斯拉股价大跌近10% 市值一夜蒸发超550亿美元」
4月21日消息,据外媒报道,在发布了2023年第一季度财报后,特斯拉股价在当地时间周四下跌9.75%,报收于162.99美元,公司市值蒸发超过550亿美元(约合3780亿元人民币),至5165.67亿美元。据...
日期:04-21
特斯拉推出圣诞毛衣一分钟售罄 售价65美元「特斯拉圣诞礼物」
11月3日 消息:近日,特斯拉在美国官网推出了一款名为“Model X-mas Sweater”的毛衣。据悉,这款毛衣售价65美元,有XS S M L XL XXL3XL尺码可选。商品介绍显示,该毛衣带有S3XY汽车...
日期:11-07
马斯克公开呼吁暂停AI,却暗中发展自己的AI公司
8月23日 消息:最近据《纽约客》一篇报道披露,马斯克公开呼吁应该暂停AI的发展,但同时自己却在暗中发展自己的AI公司。报道显示,马斯克与一千多名专家一起签署了公开信,要求在AI...
日期:08-23
地球磁场发生变化,边偏转边消失,地球可能变成下一个火星?_地球磁场正在消失什么原因
地球磁场是地球上生命的重要保护屏障。它阻挡了太阳风高能粒子的入侵,防止了紫外线等对地球生物的破坏。然而,最近的科学研究指出,地球磁场正在发生改变。来自多个研究机构的数...
日期:12-25
Hugging Face组建H4团队,开源开发类似ChatGPT的AI模型
划重点:- Hugging Face的两人团队H4致力于开源构建类似ChatGPT的AI模型。- H4团队已发布多个开源大型语言模型,包括聊天型Zephyr-7B-α和改进型Falcon-40B。- H4的主要研究重...
日期:11-10
快更新!新版鸿蒙OS 3发布,华为Mate 50性能暴增「华为鸿蒙系统50」
今日,华为Mate 50系列近期推送了鸿蒙OS 3.0.0.302版本更新,更新包大小约为336MB。根据更新日志,此次更新主要优化了系统性能和部分场景操作体验,并改善了部分应用的使用体验。骁...
日期:05-05
iPhone 13 Pro Max 512GB_消息称苹果iPhone 14 Pro/Pro Max手机256GB存储起步
IT之家 8 月 11 日消息,今天早些时候,分析师郭明錤声称苹果 iPhone 14 Pro 机型将比 iPhone 13 Pro 机型更贵。郭明錤没有透露确切的售价,但他表示所有四款 iPhone 14 机型平均...
日期:08-20
1024 程序员节官方剧透:大咖再聚,共话中国技术新生态「1024程序员礼物」
在二进制垒起的计算机世界里,1024对于程序员而言,早已不再是单纯的一串数字,不断演进的开发时代赋予了它特殊的意义。伴随着一份份热衷与期盼,10月22-24日,由湖南湘江新区管委会...
日期:09-29
金价飙升 太保值!男子把买房送的1000克黄金卖了45万:网友直呼赚大
金价已经飙升了很久,对于投资它的人来说,确实赚大了。蓝牙怎么传图片给对方手机上近日,杭州临安80后业主小辉把买房送的黄金卖了,1000克金条,变现45.2万元。杭州有黄金回收店老板...
日期:08-03
游戏一年狂收18亿美元  《原神》动画又能赚多少?「原神游戏成本」
  记者/温梦华; ;  编辑/张海妮;;  一年狂揽超18亿美元的《原神》要做动画了。  近日,米哈游宣布与全球知名动画制作公司ufotable(飞碟桌)共同制作的《原神》动画正式...
日期:09-29
杭州 白富美 非法集资「杭州“天才白富美”搞的AI,没传得那么神」
本文转载自微信公众号差评(id:chaping123)原标题 | 试了这个被刷屏的视频AI,我感觉自己被诈骗了作者 | 世超编辑 | 江江封面 | 焕妍前两天世超不是刚写了 Runway 涂一涂就能动...
日期:12-08
消协炮轰电信资费 充值卡不退余额涉嫌违法_电信卡欠费充值不进去
  今天上午,北京市消协再谈电信资费改革,对于充值卡余额不退,市消协认为电信运营商涉嫌违法。   市消协秘书长董青表示,移动电话充值卡的使用存在两方面的问题,第一个问题,运...
日期:07-29
街电“五一”出游大数据发布,高价值场景“洞察”旅游消费新趋势
  刚刚过去的五一小长假,国内旅游消费强劲复苏。中国文化和旅游部近期披露数据显示,2021年“五一”期间,全国国内旅游出行人次达2.3亿。   作为最早践行全场景布局的共享...
日期:10-23
马斯克的"读脑"设备首次植入人体,科学家期待什么?担忧什么?
2月4日消息,埃隆·马斯克(Elon Musk)创建的Neuralink旨在改变我们对脑机接口的认知,让科幻变成了现实。1月29日发布的消息中,马斯克宣布Neuralink已成功将其“读脑”设备首次植入...
日期:02-06
清华744「编码碾压ChatGPT!UIUC清华联手发布7B参数Magicoder,代码数据权重全开源」
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】全新代码大模型Magicoder,不到7B参数,就能在代码生成领域与顶级代码模型不相上下。开源...
日期:12-20
马斯克发布特斯拉“擎天柱”机器人新视频,展示其行走与叠衣能力
驱动中国2024年2月1日消息 美国当地时间1月30日晚,特斯拉首席执行官马斯克在社交平台X上发布了一段令人惊叹的视频,展示了特斯拉旗下人形机器人“擎天柱”(Optimus)的行走与叠衣...
日期:02-03
出电梯遇到领导进电梯「男子下班遇领导按住电梯要求加班 后续来了:获赔偿离职」
10月12日,浙江杭州。李先生下午六点半下班,却遇到领导按住电梯要求加班。李先生表示,领导说任务没完成,大家都在加班,他怎么好意思下班。随后他坚持下班,被领导私聊批评。iphone 1...
日期:10-23