您的位置:首页 > 互联网

下载次数破39万,CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

发布时间:2024-11-07 14:50:06  来源:互联网     背景:

声明:本文来自微信公众号“新智元”,作者:新智元,,授权转载发布。

VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。

近年来,生成式人工智能(AIGC)引发广泛关注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。

然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成棕色的狗绕着一棵树追黑色的狗时,模型可能会错误生成两只黑狗,或将追逐误解为两只狗在玩耍。

有什么办法可以自动发现这些模型的不足,并进一步提升它们呢?

为解决这一问题,CMU和Meta团队联合推出了全新的评估指标VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模型在复杂提示词下的表现。

ECCV’24论文链接::https://arxiv.org/abs/2404.01291

CVPR’24SynData最佳论文链接:https://arxiv.org/abs/2406.13743

论文代码:https://github.com/linzhiqiu/t2v_metrics

做外卖月入三万

模型下载:https://huggingface.co/zhiqiulin/clip-flant5-xxl

VQAScore模型:https://huggingface.co/zhiqiulin/clip-flant5-xxl

GenAI-Bench数据集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench

这些成果已在ECCV和CVPR等顶会上发表,并被谷歌DeepMind用于评估其最新的Imagen3模型,被誉为当前文生图领域超越CLIP等模型的最佳评估方案!

背景介绍

近年来,文生图模型(如DALL-E3、Imagen3、Sora等)发展迅速,但如何准确评估这些模型的表现仍是一个关键问题。

尽管许多公司采用人类评估(Human Evaluation)来提升结果的准确性,但这种方式成本高、难以大规模应用,而且缺乏可复现性。

在图片生成领域,已有多种方法使用模型来自动评估(Automated Evaluation)生成图像的表现,其中常见的指标包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。

然而,这些指标真的足够好吗?

现有自动化指标的不足

在评估两张图片的相似性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与图像之间的相似度(image-to-image metric),而无法判断文本和图像之间的相似度(text-to-image metric)。

为了解决这一问题,当前主流的文生图评估采用了CLIPScore,通过独立的图像编码器和文本编码器,将图像和文本嵌入到同一特征空间,并通过计算特征相似度来判断它们的匹配程度。

然而,CLIPScore存在严重的bag-of-words问题:也就是说,CLIP在处理文本时可能忽略词序,混淆像月亮在牛上面和牛在月亮上面这样的句子。这使得模型难以准确抓住复杂文本中的关键信息。

为了解决这一问题,CMU和Meta的研究团队提出了VQAScore,采用更强大的生成式VQA模型(如GPT-4o)来更准确地评估文生图模型:

VQAScore:一种简单有效的评估指标

研究团队基于GPT-4o等用于视觉问答(VQA)任务的生成式视觉语言模型,将图像与提示词之间的相似度定义为模型在回答这个图像是否显示了[提示词]?请回答是或否。时给出是(Yes)答案的概率:

例如,在计算某张图像与提示词牛在月亮上面之间的相似度时,VQAScore会将图像和问题这个图像是否显示了『牛在月亮上面』?请回答是或否。输入模型,并返回模型选择是的概率。

另外,研究团队发现,当前主流的VQA模型(如LLaVA-1.5)使用了具备单向(auto-regressive)注意力机制的语言模型(如Llama)。这种机制导致模型在提取图像特征时,无法提前获取提示词的完整信息。

为了更有效的提取视觉特征,研究团队使用开源数据训练了一个更强的CLIP-FlanT5VQA模型。该模型采用了具备双向注意力机制的语言模型FlanT5,使得图像特征提取能够根据输入的提示词动态调整。

研究表明,这一机制在提升VQA模型对复杂提示词的理解方面效果显著。

VQAScore比主流评估指标更简单高效。许多传统指标依赖大量人类标注(如 ImageReward、PickScore)或私有模型(如GPT-4Vision)才能取得好表现。

相比之下,VQAScore具备以下核心优势:

1. 无需人类标注:VQAScore能直接利用现有的VQA模型取得优异表现,无需在人工标注数据上进行额外微调。

2. 分数更精准:使用GPT-4给图片打分(如在0到100之间打分)时,模型往往会随意给出高分(如90),而忽略图片的真实质量。相比之下,VQAScore使用概率值来判断图片与提示词的相似度,结果更加精确。

VQAScore实验结果

研究人员在大量复杂图文匹配基准(如Winoground和EqBen)以及文生图评估基准(如Pick-a-pic和TIFA160)上对VQAScore进行了测试。

结果显示,VQAScore在所有图像、视频和3D生成任务的基准上超越了CLIPScore等流行指标,取得了最佳表现。

值得注意的是,VQAScore采用了开源模型(CLIP-FlanT5),却仍大幅超越了使用更强闭源模型(如PALI-17B和GPT-4)的方法(如VQ2、ViperGPT 等)。

此外,VQAScore也超越了依赖提示分解进行视觉推理的先进方法(如 CVPR'23最佳论文Visual Programming和ViperGPT等),进一步验证了端到端评估方案的有效性。

最新的谷歌DeepMind Imagen3报告还指出,使用更强大的VQA模型(如 Gemini)可以进一步提升VQAScore的表现,凸显了其在未来生成式模型评测中的潜力。

GenAI-Bench:由设计师收集的高难度文生图基准

为了更好地评估文生图模型及其评估指标的性能,研究团队推出了GenAI-Bench。该基准包含1600个由设计师收集的复杂提示词,覆盖了10种生成模型(如DALL-E3、Midjourney、SDXL等),并配有超过80,000条人工标注。

GenAI-Bench相比较之前的基准有以下优势:

1. 更具挑战性:研究表明,大多数文生图/视频模型在GenAI-Bench上表现仍有不足,还有大量的提升空间。

2. 避免空洞词汇:所有提示词均经过严格筛选,避免使用假大空的词语,确保评估更具客观性。

3. 细粒度技能分析:GenAI-Bench能提供更细致的技能分类和分析,帮助研究人员深入了解模型在不同能力上的具体表现。

GenAI-Rank:用VQAScore来提升文生图表现

研究人员构建了一个新的GenAI-Rank基准,为每个提示词使用DALL-E3和Stable Diffusion(SD-XL)生成3到9张候选图像。

研究表明,从这些候选图像中返回VQAScore得分最高的图像,可以显著提升文生图模型的效果。

这一方法无需微调生成模型本身,因此也能优化(黑箱)私有模型,如DALL-E3。

实验结果进一步证明,VQAScore在图像排序上比其他方法(如CLIPScore、PickScore等)更加有效。

结语

VQAScore和GenAI-Bench为文生图模型提供了更精准且全面的评估,已被Imagen3、VILA-U、RankDPO等多个项目用于更好地评估和优化最新的生成式模型。研究团队已开源代码和数据集,期待未来更多探索与进展!

团队介绍

团队的一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士研究生,由Deva Ramanan教授指导,专注于视觉-语言大模型的自动评估与优化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最佳论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。

Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主要集中在深度学习、计算机视觉和多模态模型等方向,曾发表多项具有深远影响力的成果,例如AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在顶级会议如CVPR、ICCV、NeurIPS等发表了大量高影响力论文,是计算机视觉和多模态模型领域的领军人物之一。

Deva Ramanan教授是计算机视觉领域的国际知名学者,现任卡内基梅隆大学教授。他的研究涵盖计算机视觉、机器学习和人工智能领域,曾获得多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终身成就奖、2012年的IEEE PAMI青年研究员奖、2012年《大众科学》评选的十位杰出科学家之一、2013年美国国家科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性工作(如COCO数据集)获得的Koenderink奖。此外,他的论文在CVPR、ECCV和ICCV上多次获得最佳论文提名及荣誉奖。他的研究成果对视觉识别、自动驾驶、和人机交互等应用产生了深远影响,是该领域极具影响力的科学家之一。

参考资料:

https://arxiv.org/abs/2404.01291

https://arxiv.org/abs/2406.13743


返回网站首页

本文评论
继“笔误门”、“漏洞门”后,金山再曝“破坏门”
  继“笔误门”、“漏洞门”后,国内知名软件企业金山再度陷入诚信危机。360公司董事长周鸿祎今日在互联网站长大会上,公布了金山软件破坏360运行的最新视频证据。而此前,金...
日期:07-29
比亚迪云辇技术来了:四套系统 汽车会自己“看路”
4月10日晚,比亚迪召回云辇智能车身控制系统发布会”,正式发布云辇”技术,其是一系列车身控制技术的集大成者,实现系统级深度集成。云辇的辇”字指的是古代最顶级的出行载具,从字...
日期:04-10
五一连休五天 高速免费 火车票周六开售:攻略收好「五一假期火车票开售!」
快科技4月11日消息,2023年的五一小长假还有两周左右时间了,本次放假连休5天,准备出游的人可以考虑火车票了,本周六开始出售假期首日车票。按照2023年劳动节放假安排的通知,2023年...
日期:04-12
Redmi K60 Ultra首发!狂暴引擎2.0实现《原神》不掉画质、亮度
快科技8月3日,今天,Redmi在发布会上宣布,即将推出的Redmi K60 Ultra将首发搭载升级的狂暴引擎2.0。现在,官方公布了狂暴引擎在2.0版本中的诸多升级。小米洗碗机和美的洗碗机据介...
日期:08-04
官方回应四川现乐山大佛孪生兄弟:竟是近代雕塑艺术作品 不是文物
近日,多条乐山大佛孪生兄弟”的短视频在网上传播,引发网友讨论。视频发布者称,在四川乐山市的一处深山里,有一尊佛头雕塑,修建年代比乐山大佛还要早,是修建乐山大佛的蓝本”。封面...
日期:11-14
双核1.8GHz 德仪发布移动芯片OMAP4470
德州仪器(Texas Instruments)刚刚发布了旗下最新的移动处理器,主频1.8GHz的双核OMAP4470,也就是刚刚在台北Computex展示的新品。这颗芯片适用于智能手机与平板产品,相对于其它移...
日期:07-28
OPPO Reno12系列正式发布,2699元起售_opporeno12g256手机报价
2024年5月23日,OPPO 在今日正式发布了全新一代的 Reno12 系列,为消费者带来了更加强大的性能、更先进的技术和更出色的拍摄体验。OPPO Reno12 Pro搭载了联发科天玑9200 星速版...
日期:05-24
小米笔记本air装win7「小米笔记本air」
小米笔记本Air,是小米公司在2016年推出的一款轻薄便携的笔记本电脑。该产品以其超高性价比和优秀的产品性能,迅速受到了市场的欢迎和认可。下面将从外观设计、硬件配置、使用...
日期:05-31
Meta旗下WhatsApp发生数据泄露 近5亿用户受到影响
11月25日消息,据国外媒体报道,一个WhatsApp用户电话号码数据库最近在某黑客社区论坛上挂牌出售,包括来自84个国家地区的约4.87亿WhatsApp用户的电话号码。商旅APP据悉,WhatsApp...
日期:11-27
家乐福客户端「家乐福采用 OpenAI 技术推出 Hopla 聊天机器人 革新网购体验」
6月9日消息:家乐福正在推出三项基于 ChatGPT 技术的创新技术解决方案:用于家乐福官网购物的咨询机器人、网站上家乐福品牌产品的描述页和购买流程支持。这些解决方案是基于 O...
日期:06-09
可怜吗!贾跃亭感叹终于在美国吃到中国口味鸡腿堡 网友喊话快回来
快科技7月3日消息,近日,贾跃亭微博发布视频,感慨自己终于在洛杉矶吃上了和北京一样味道的辣腿儿堡。随后网友疯狂在贾跃亭视频下留言,喊话希望他快点回来。在这之前,贾跃亭表示,中...
日期:07-03
无锡与百度智能云合作 联合共建无锡城市政务大模型
9月27日 消息:9月25日,无锡市城运中心、市大数据集团与百度智能云联合签署战略合作协议,在签约仪式上,三方宣布将合作打造城市级政务大模型,进一步赋能治理数字化转型。据悉,9月5...
日期:09-27
海底捞要求必须点锅底 为节省成本不再主动送小零食「海底捞必须点小料吗」
最近有网友爆料称,海底捞不再允许单点4个清水锅,必须至少点一个锅底才能下单,此事在微博上引起广泛关注。对此,海底捞客服回应称,必须点一个锅底才能下单,不能自带锅底。印度发射...
日期:03-14
雷军向周鸿祎推荐小米SUV:超7成网友期待_小米雷军投资的汽车品牌
快科技4月21日消息,日前,周鸿祎发微博分享了参加中国互联网三十周年座谈会细节。vivo ne x会议期间,雷军问,360楼下来送车的是不是都排队了,有没有眼花缭乱?周鸿祎表示,都是车圈...
日期:04-22
福励织造:工业互联网平台 “撬动”花边织造产业链
通信世界网消息(CWW)作为典型的传统轻工产业,花边织造行业具有生产切换成本高、信息化程度低等行业共性痛点,且面临订单时间分布不规律、企业管理效率低、材料损耗严重、故障应...
日期:09-16
netflix上市时间「Netflix将于10月19日发布2022年第三季度财报」
  讯 北京时间9月27日下午消息,流媒体视频服务提供商Netflix(Nasdaq:NFLX)宣布,将于太平洋时间10月18日下午1点(北京时间10月19日凌晨4点)发布2022年第三季度财报。  届时,Netfl...
日期:09-30
联想在广州的公司「联想与中国电信广东公司签订战略合作协议」
通信世界网消息(CWW)8月8日,联想与中国电信股份有限公司广东分公司(简称广东电信)签署战略合作协议。双方将发挥各自优势,促进算网融合、数实融合的加速形成,共建智能化生态,将在智...
日期:08-09
高君丽点读机「点读机女孩高君雨全网被禁:抖音、小红书等账号被禁止关注」
今日,曾凭借一则“哪里不会点哪里,so easy,妈妈再也不用担心我的学习”广告而走红的“点读机女孩”高君雨,被网友发现其微博、抖音、小红书等社交账号均出现异常状态。据悉,高君...
日期:04-24
古代名人“穿越”做博主,如何玩转互联网?_网红穿越古代
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout克劳锐),作者:白羊,授权转载发布。当李清照、林黛玉这些古人活在现代世界会是什么样的情形?社交平台上,一些古人博主的出现满...
日期:06-18
奇瑞高端suv星途「17万元起真香!奇瑞最高颜值SUV星途瑶光盲订量已达6012台」
1月4日消息,据奇瑞星途光官方,旗下全新SUV车型瑶光自开启盲订以来,仅一周内订单量已达6012台。mate50pro5g详细参数配置盲订开启后的第一秒,便有12位用户同时下订,前60秒内更是产...
日期:01-04