您的位置:首页 > 互联网

多图场景用DPO对齐,上海AI实验室等提出新方法,无需人工标注

发布时间:2024-11-02 15:22:24  来源:互联网     背景:

声明:本文来自微信公众号“量子位”,作者:刘子煜,授权转载发布。

多图像场景也能用DPO方法来对齐了!

由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO

这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

通过将单图像数据扩展至多图像数据,并设计序列、网格拼贴和图中图三种数据格式,MIA-DPO大幅降低了数据收集和标注成本,且具有高度可扩展性。

图片

要知道,理解多图像上下文已经成为视觉语言大模型的发展趋势之一,许多数据集和评估基准被提出。不过幻觉问题依然很难避免,且引入多图像数据可能削弱单图像任务的表现。

虽然偏好对齐方法(如DPO)在单图像场景中已被证明有效,但多图像偏好对齐仍然是一个解决问题。

MIA-DPO不仅解决了这一问题,而且无需依赖人工标注或昂贵的API

通过分析视觉大语言模型在多图像处理中的注意力分布差异,他们提出了一种基于注意力的选择方法(Attention Aware Selection),自动过滤掉关注无关图像的错误答案,构建了自动化、低成本且适用于多图像场景的DPO数据生成方法。

图片

MIA-DPO的整体介绍与实验结果。
值得一提的是,该论文还获得了当日HuggingFace DailyPaper #1.

图片

多图推理容易有幻觉

为从根本上研究LVLM的多图推理问题,研究者首先深入探索了多图情境下LVLM的幻觉问题。一些早期研究探讨了不同类型的单图像幻觉现象,例如物体幻觉,指的是模型错误描述图像中不存在的物体。与单图像幻觉相比,多图像场景引入了更加复杂的幻觉类型。如图2所示,研究者将多图像幻觉分为两类:

暴雪中国招聘官网

(1) Sequence Confusion

当模型面对多张图片时,可能无法准确识别输入提示所指向的图像。例如,在图2的上方案例中,问题是针对图像1(人与大海),但模型的回答却基于图像4(铁轨上的火车)。

(二) Element Interference

相比单图像,多图像场景中的视觉元素数量显著增加,导致LVLMs在不同元素之间产生混淆。例如,在图2的下方案例中,问题“图像2中的汽车是什么颜色?”本应回答为“白色”。然而,LVLM错误地将图像3中摩托车的颜色属性理解为图像2中汽车的颜色,导致了错误的回答。

图片

多图幻觉

用注意力机制检测幻觉

为构建能够提升多图感知与推理能力并缓解幻觉的视觉文本对齐方法,研究者们提出了注意力机制作为检测幻觉的指标。

注意力机制揭示了模型在做出决策时“关注”的位置。研究者们观察到,注意力机制为检测多图像幻觉提供了重要线索。

理想情况下,注意力值应集中在与问题相关的输入图像的特定区域上。如果注意力值分散或未强烈聚焦于正确的视觉元素或区域,表明模型在理解多图像序列或区分不同图像的元素时存在困难。

卢伟冰何时加入小米

基于这一观察,研究者们设计了一种基于注意力感知的选择机制,利用注意力值在DPO算法中选择包含幻觉的被拒绝样本。MIA-DPO的框架如下图3所示。

amd rx7000显卡什么时候发布

图片

门一般几米宽

MIA-DPO的整体架构

尽管基于注意力感知的选择机制在构建DPO数据时效果显著,但仍可能会包含少量噪声样本,进而对模型产生不利影响。为此,研究者们引入后选择步骤,通过以下三个指标来过滤噪声样本:(1) 困惑度(Perplexity, PPL);(2) 长度比率(Length Ratio);(3) 编辑距离(Edit Distance)。

在构造DPO数据的过程中,研究者通过引入无关图像高效地转换现有的单图像数据集(例如LLaVA-665k)。

该方法低成本、可扩展,数据形式丰富的优势,使MIA-DPO能够较为全面地缓解LVLMs可能产生的各种多图像幻觉类型。

如下图所示,研究者构建了三种格式的多图像DPO数据:

(1) 序列数据:多张图像按顺序排列,问题针对特定图像。图像数量从2到5张不等;

(二) 网格拼贴数据:多张图像合并为一张图,每张图像都有编号说明。问题根据语言描述定位到特定图像。图像数量从2到9张不等;

(三) 图中图数据:一张图像被缩放并叠加在另一张图像上,问题围绕组合后的图像展开。

图片

MIA-DPO的三种数据类型

研究者在多个多图和单图benchamrks上对MIA-DPO进行了测试。

实验结果显示,在经典的LLaVa1.5模型和更为强大的InternLM-Xcomposer2.5上,MIA-DPO都能显著提升模型的多图感知与推理能力,如图所示,LLaVa1.5和InternLM-Xcomposer2.5在五个多图benchmarks上分别取得了平均3%和4.3%的性能提升。

图片

除此之外,研究着在多个单图benchmarks上也进行了丰富的实验,结果显示MIA-DPO在提升模型多图感知与推理能力的同时,也能保持住模型原有的单图理解能力。

图片

最后小结一下。

MIA-DPO不仅为多图像场景中对齐模型与人类偏好提出了全新解决方案,还通过引入低成本、可扩展的数据生成方法,推动了LVLMs在处理复杂多图像任务中的应用。MIA-DPO的成功证明了通过偏好优化对齐模型与人类反馈,在提升模型多图像感知与推理能力的同时,也可以保持原有的单图任务性能,为未来的研究奠定了坚实基础。

论文地址:

https://arxiv.org/abs/2410.17637

Project Page:

https://liuziyu77.github.io/MIA-DPO/

Code:

https://github.com/Liuziyu77/MIA-DPO


返回网站首页

本文评论
“裁掉人工,雇佣AI”,ChatGPT开始替代人类
声明:本文来自于微信公众号 锌财经(ID:xincaijing),作者:陈妍,授权转载发布。只要在ChatGPT的聊天框里把自己的写作需求告诉AI,等上几十秒后,一篇整合大数据、纯原创、观点鲜明的文章...
日期:02-04
五一档电影票房破5亿「总票房超6亿!五一档三部电影票房破亿了 你贡献多少?」
4月30日消息,据灯塔专业版实时数据,截至今日12时47分,2023年五一档新片总票房(含预售)突破6亿,其中,三部电影票房破亿。具体来看,作为一部去年国庆档撤档影片,《长空之王》以2.36亿票...
日期:04-30
全固态电池迎技术革新: 马里兰大学团队制备高能量密度的锂硫电池,有望用于电池产品和电动车等领域
“这是我博士阶段的最后一个项目, 在世界上首次实现了氧化物固态锂硫电池的全固态化,完全不需要添加任何液态电解液。 该技术在固态电池领域里属于技术革新,并且基于电池的原...
日期:05-14
财报里的猫狗拼:拼多多怎样反超阿里_拼多多2020年财务报表分析
声明:本文来自于微信公众号定焦(dingjiaoone),作者 | 金玙璠,编辑 | 魏佳,授权转载发布。国内电商圈,很久没有这么受关注了。11月28日晚,中国两大电商巨头阿里和拼多多,成为人们热议...
日期:11-30
倒车怒撞奔驰E 网友直呼太恶劣 广州街头大众CC变道不成_奔驰倒车时感觉撞到了 可是
4月23日消息,近日广州街头一段大众CC变道不成、倒车怒撞奔驰E的视频在网上热传,引发网友热议。从行车记录仪来看,事件发生于4月2日中午,一辆奔驰E在大众CC后方行驶,大众CC向右变...
日期:10-01
安卓通用!iPhone 15使用标准USB-C端口:顺畅读取16TB移动硬盘「iphone usba口最大多少w」
快科技9月16日消息,在iPhone 15系列发布之后,外界的各种猜测也终于得到了证实,尤其是关于充电接口是否加密的问题。蜜雪冰城冰水据充电头网的最新消息,iPhone 15系列的USB-C接口...
日期:09-16
iPhone 15 Pro Max严重缺货:苹果分析师:需求强劲 还待补充
据台媒中央社报道,过去几年,iPhone高端机型的销售情况普遍优于一般机型。然而,今年iPhone 15、15 Plus和15 Pro的到货量较为充裕,但iPhone 15 Pro Max的到货比例非常少,占比大约...
日期:09-19
审计师举报客户造假:中国概念股信任危机源头
  一个举报,引发了华尔街的中国概念股整体的信任危机。   目前,中国企业在美国股市正迎来空前的信任危机,美国证监会列出了170多个借壳上市的黑名单,其中大多数是中国企业...
日期:07-28
小米5.15新品发布会「专门迎接米粉去参加小米15发布会-小米SU7专列已就位」
10月29日消息,今晚7点,小米将举行小米15系列暨小米澎湃OS 2新品发布会。这次小米邀请了一部分米粉来参会,为了迎接米粉的到来,小米还准备了小米SU7米粉专列,这些汽车停在了地铁站...
日期:10-29
泛微OA集成ERP,助力制造业实现供应商、销售全面数字化管理(泛微协同商务系统oa)
  传统制造业在数字化转型过程中,一直在寻找产品新功能点,深化产品功能应用。OA系统在提高公司流程效率,改变员工工作习惯的同时,不断深化与业务系统的应用。  随着制造和...
日期:07-18
赵明:南方小土豆到北方首推荣耀Magic6系列 作为东北人很自豪_荣耀赵明谈magic3
快科技1月12日消息,昨晚,荣耀Magic6及荣耀保时捷设计新品发布会后,荣耀CEO赵明接受了媒体群访。有媒体提问,现在北方极寒,像我们南方的小土豆没有到过哈尔滨这么极北的地方,那里很...
日期:01-12
华为MatePad 2023跑分曝光 搭载骁龙7 Gen1
7月18日 消息:近日,华为官方商城上架了新款MatePad2023的预热界面,揭示了该设备即将在7月20日推出的信息。据Geekbench数据库显示,该设备的跑分信息已经被找到,是一款4G网络版本...
日期:07-18
突发!鸿雁起诉小米 2021智能家居首个专利大战上演
  近日,工商信息公开平台显示,杭州鸿雁电器有限公司以涉嫌侵犯发明专利权为由,起诉了小米通讯技术有限公司以及小米旗下生态链企业上海创米科技有限公司。案件将定于2021年...
日期:08-03
苹果将于2024年发布带碳纤维支架的可折叠iPad
苹果将在明年某个时候推出一款带有碳纤维支架的可折叠iPad,分析师郭明錤(Ming-Chi Kuo)表示。iphone12pro双11降价瑞典快时尚品牌zara前两年推出一个高端的产品线在一系列推文...
日期:01-31
花花被遗忘外场 饲养员被解雇:花花身体状况无异常_花花被谁选出来的
近日,四川成都的大熊猫花花在除夕夜被意外遗忘在外场数小时,此事迅速引起了公众的广泛关注。对于这一事件,2月22日,官方给出了回应,表示已对当班的饲养员进行了严肃处理,并解除了...
日期:02-23
中国移动与中国保利集团签署战略合作协议,在多领域开展深度合作
  (中国移动与保利集团签署战略合作协议)   11月14日-16日,“5G+ 未来无限可能”中国移动2019(第七届)全球合作伙伴大会在广州召开。在15日的“共创5G生态,绽放精彩未...
日期:06-14
股价暴涨让英伟达员工"一夜暴富",不少老员工躺平了_英伟达控股股票走势
12月15日消息,英伟达内部消息人士透露,公司股价不断攀升,让许多员工一夜暴富,甚至导致一些老员工进入“半退休”状态。这个问题已经引起了英伟达首席执行官黄仁勋的关注,他上个月...
日期:12-15
从此再无续航焦虑!智己发布全域800伏双碳化硅平台 5分钟可充200公里
快科技7月24日消息,日前,智己汽车全域800伏SiC双碳化硅平台正式发布。该平台将在智己LS6上正式使用。我们从智己官方发布的信息了解到,全新的智己LS6四驱版本将会搭载前后SiC双...
日期:07-25
曝MIUI 14是最后大版本,自研操作系统定位“万物互联”
根据官方公布的数据,截至2023年6月,小米全球正在运行的MIUI系统(MIUI OS)月活跃用户已经达到了6.06亿,同比增长了10.8%。那么,MIUI 14是否是MIUI的最后一个正式大版本呢 据知情人...
日期:10-10
探索创新AI体验 三星Galaxy全球新品发布会7月10日重磅揭晓_三星新机发布会
近日,智能手机行业迎来一则重磅消息,三星Galaxy全球新品发布会即将在巴黎举行,新一代Galaxy Z系列折叠屏手机即将正式亮相。新品不仅带来了领先的折叠屏技术,还会融入更强大的Ga...
日期:07-03