您的位置:首页 > 互联网

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

发布时间:2023-07-16 11:57:01  来源:互联网     背景:

<script> var cid = "1543650".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.split(',') for(let i=0;i

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】北大校友共同一作,Meta发布史上首个单一多模态模型!7B模型击败Diffusion,完美画手难题完美解决。

Meta又来炸场了!

就在刚刚,Meta推出了一个基于Transformer的多模态模型——CM3leon,在文生图和图像理解领域都取得了绝对的突破,堪称同类最佳。

而且,这种将多模态组合成单一模型,在此前公开的AI系统中是前所未有的。

图片

显然,Meta的这项研究,为多模态AI定义了一个全新的标准,预示着AI系统完全可以在理解、编辑、生成图像、视频、文本这些任务上自由切换。

同时,CM3leon的推出,正式标志着自回归模型首次在关键基准上,与领先的生成扩散模型的性能相媲美。

图片

论文地址:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

此前,文生图领域最受瞩目的三大明星模型,是Stable Diffusion,DALL-E和Midjourney。而文生图技术基本上都是依赖于扩散模型。

但CM3leon的革命性意义在于:它使用的是完全不同的技术——基于tokenizer的自回归模型。

结果表面,基于tokenizer的自回归模型不仅比基于扩散模型的方法更有效,在文生图领域实现了SOTA,而且训练的计算量还比此前基于Transformer的方法少了五倍!

图片

01

准备好,一大波酷炫效果来袭

光看原始性能指标,还说明不了什么。

CM3leon真正惊艳的地方,在于处理更复杂的提示和图像编辑任务。

准确渲染图像,效果惊人

比如,它可以从提示中准确渲染图像,例如「撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌」。

图片

任意prompt,随心所欲编辑图像

CM3leon还有一个独特的功能——根据任意格式的文本指令对现有图像进行编辑,比如更改天空颜色,或者在特定位置添加对象。

上面这些功能,远远超越了DALL-E2等模型所能达到的效果。

图片

前所未有的多模态单一模型

CM3leon的多功能架构,让它能够在文本、图像和构图任务之间流畅地自由转换。

除了文生图的功能,CM3leon还可以为图像生成标注、回答有关图像内容的问题,甚至可以根据边界框和分割图的文本描述创建图像。

这种将模态组合成单一模型的情况,在此前在公开披露的AI系统中是前所未有的。

prompt:狗叼着什么?模型回答:棍子。

prompt:详细描述给定图像。模型回答:这张图像中,一只狗嘴里叼着一根棍子。地面上有草。图像的背景中有树。

图片

给定图像边界框分割的文本描述,说明在图像的哪个地方需要一个水池、需要一个镜子,CM3leon就可以完全按prompt生成对应图像。

图片

超高分辨率

一个单独的超分辨率平台可以与CM3leon输出集成,从而显著提高分辨率和细节。

输入prompt「湖中央的圆形小岛,湖周围有森林,高对比度」——

图片

解决AI画手难题

连AI不会画手的老大难问题,都被CM3leon轻松解决了。

图片

02

自回归模型首次击败Diffusion?

在近年来大热的文生图领域,Midjourney,DALL-E2和Stable Diffusion使用的都是扩散技术。

虽然Diffusion技术产生的结果很惊艳,但由于它是计算密集型的,这使得它的计算强度很大,运行成本很高,而且往往缺乏实时应用所需的速度。

有趣的是,OpenAI几年前曾想通过名为Image GPT的模型,来探索了Transformer作为图像生成的可能性。但它最终放弃了这个想法,转而支持Diffusion。

而CM3leon采用的是完全不同的方法。作为基于Transformer的模型,它利用注意力机制来权衡输入数据(无论是文本还是图像)的相关性。

这种架构的差异,使得CM3leon能够实现更快的训练速度和更好的并行化,因而比传统的基于扩散的方法更有效。

仅用单个TPU,CM3leon就在图像数据集上进行了有效的训练,并在MS-COCO数据集上达到了4.88的FID分数,超过了Google的文本到图像模型Parti。

与此同时,CM3leon的效率更是同类Transformer架构的5倍以上。

图片

CM3leon之所以如此成功,可以归功于它独特的架构和训练方法。

它强大性能的一个关键,就是监督微调的技术(SFT)。

此前,SFT已被用于训练像ChatGPT这样的文本生成模型,效果很好,但Meta认为,应用于图像领域时,它也很有用。

事实上,指令微调不仅提高了CM3Leon在图像生成方面的性能,而且提高了图像标注编写的性能,使其能够回答有关图像的问题并通过遵循文本指令(例如「将天空的颜色更改为亮蓝色」)来编辑图像。

CM3leon仅采用解码器转换器体系结构,类似于已建立的基于文本的模型,但增加了处理文本和图像的功能。

训练过程涉及检索增强,以及跨越各种图像和文本生成任务的指令微调。

通过应用跨模态的监督微调技术,Meta显著提高了CM3leon在图像标注、视觉QA和文本编辑方面的性能。

尽管CM3leon只在30亿个文本token上进行了训练,但它与在多达1000亿个token上训练的其他模型的结果相当,甚至实现了超越。

作为第一个采用与文本语言模型相似的方法进行调整的多模态模型,Meta在CM3leon中加入了一个大规模的检索增强预训练阶段和一个第二个多任务的监督微调(SFT)阶段。

03

CM3leon表现如何

凭借CM3leon的能力,图像生成工具可以产生更一致的图像,更好地遵循输入提示。

以下是CM3leon在各种任务中的能力展示,所有任务均由单个模型完成:

文本到图像生成

基于文本的图像编辑(例如,「将天空的颜色改为明亮蓝色」)很具挑战性,因为它要求模型能够同时理解文本指令和视觉内容。

尤其是,当涉及复杂对象或提示包含多个必须在输出中出现的约束条件时。

根据具有高度组合结构的提示文本,CM3leon可以生成一个指令跟随的图像。

图片

(1) 在撒哈拉沙漠中戴着稻草帽和霓虹太阳镜的小仙人掌

(2) 一只人手的特写

(3) 在动漫中准备使用武士刀参加一场史诗级战斗的浣熊主角

(4) 以幻想风格呈现的停车标志,上面写着「1991」

基于文本的图像编辑

给定一张图像和一个文本提示,CM3leon可以根据文本中的指令对图像进行编辑。

由于CM3leon模型的通用性,与其他的任务一样,这是通过同一个模型实现的,而不像以前的模型(如InstructPix2Pix)只针对基于文本的图像编辑进行微调。

图片

同时,CM3leon模型还可以根据一系列不同的提示来生成简短或长篇描述,并回答关于图像的问题。

举个栗子。

- 提示:

问题:这两个物体有什么共同点?

上下文:选择最佳答案。

选项:(A)闪的(B)咸的

回答:让我们逐步思考:

- CM3Leon输出:

思考每个物体。薯片有咸味。椒盐脆饼是咸的。所以答案是(B)。

图片

- 提示:

详细描述给定图像中的所有物体。

- CM3Leon输出:

一个街道标志位于金属杆上。标志是蓝色的,上面有白色的文字。杆上有一个红灯。天空是明亮的蓝色。街道上停着车。街道两侧有树木。街道两侧有建筑物。

图片

同样,对于下面这些「看图问答」,CM3leon都能轻松拿捏。

图片

为了进一步了解CM3leon,Meta在图像描述生成和视觉问答任务中,对指令微调模型进行了实证评估,并将它们与先前的SOTA基准进行了比较。

相比于Flamingo(100B)和OpenFlamingo(40B),CM3leon模型的文本数据明显较少(约3B个token)。

但在MS-COCO图片描述和VQA2问答方面,CM3leon却实现了与零样本OpenFlamingo相同的性能,甚至在VizWiz任务上击败了Flamingo近10个百分点。

图片

结构引导的图像编辑

结构引导的图像编辑旨在理解和解释提供的文本指令以及结构或布局信息。

从而让CM3leon模型能够在遵循给定的结构或布局指令的同时,创建视觉上一致和语境恰当的图像编辑。

在只包含分割的图像(没有文本类别)中,生成一张图像。这里的输入表示从中提取分割的图像。

图片

超分辨率

除此之外,图像生成领域还有一个常见的技巧——利用经过单独训练的超分辨率阶段,从原始模型输出生成更高分辨率的图像。

对于这类文本到图像生成任务,CM3leon表现得也非常好。

图片

(1)一杯热气腾腾的咖啡,背景是群山,在旅途中休息

(2)日落时分,美丽而雄伟的公路

(3)湖中心的圆形小岛,湖边环绕着森林

以及一些「奇幻」风格的生成。

图片

(1)海龟在水下游泳

(2)大象在水下游泳

(2)一群羊

04

如何构建CM3Leon

架构

在架构方面,CM3Leon采用了一个和成熟的文本模型相似的仅解码器Transformer。

但不同的是,CM3Leon能够输入和生成文本和图像。

训练

通过采用论文「Retrieval-Augmented Multimodal Language Modeling」中提出的训练检索增强技术,Meta大大提高了CM3Leon模型的效率和可控性。

同时,Meta还在各种不同的图像和文本生成任务上,对CM3Leon模型进行了指令微调。

图片

左侧:各种任务的常见输入;右侧:相应的模型输出。

在训练过程中,Meta将模型输入和输出连接起来,并使用与预训练阶段相同的目标进行训练。

随着人工智能行业的不断发展,像CM3Leon这样的生成模型变得越来越复杂。

这些模型通过对数百万个示例图像进行训练来学习视觉和文本之间的关系,但它们也可能反映出训练数据中存在的偏见。

因此,Meta采用了有许可的数据集对CM3Leon进行训练。

而结果也证明,虽然数据的分布与先前的模型截然不同,但CM3Leon仍然实现了强大的性能。

对此,Meta希望,通过大家的共同努力,可以创建更准确、更公正、更公平的模型。

05

为多模态语言模型铺平道路

总的来说,Meta认为,CM3Leon在各种任务上的出色性能,是朝着更真实的图像生成和理解迈出的重要一步。

而这样的模型,最终可以帮助提升创造力并在元宇宙中实现更好的应用。

06

作者介绍

Lili Yu、Bowen Shi和Ramakanth Pasunuru为论文共同一作。

其中,作Lili Yu取得了北大物理系的学士学位,以及MIT电子工程和计算机科学的博士学位。

图片

参考资料:

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

https://www.maginative.com/article/meta-unveils-cm3leon-a-breakthrough-ai-model-for-advanced-text-to-image-generation-and-image-understanding/

https://techcrunch.com/2023/07/14/meta-generative-transformer-art-model/

xbox 漫威

邵志敏是中国最厉害的乳腺外科专家吗

卖快餐挣钱吗

骁龙7gen1是几纳米芯片


返回网站首页

本文评论
meta可能_Meta启动一系列调整:为创作者提供更有利、公平的环境
  为创作者提供更有利、公平的环境,meta 公司于 5 月 4 日宣布了一系列优化调整。在算法优化方面将优先考虑原创内容,并为创作者提供更直观、全面的洞察力工具以及更多变...
日期:06-21
新冠确诊 疫苗_新冠疫情下AR眼镜&Teams远程协作方案
  智能AR眼镜,全语音控制、解放双手,配备降噪耳机,与微软的Teams适配应用,可以帮助一线工人在嘈杂危险的环境下安全高效的工作。   发起Teams呼叫   专家或一线工人可以...
日期:07-17
有AI生活用讯飞 讯飞消费者产品解决你的办公焦虑感
  转眼大家复工已有一段时间,天气也越来越暖和。春天准时来到,春困自然也不会缺席。暖洋洋的春天容易犯困,你是不是也想有个“最强大脑”帮自己处理繁琐的事务?把宝贵的...
日期:08-25
2020京东618红包「618红包第二波领取攻略!京东天猫618红包最高20618元」
618大促正在如火如荼的进行中,京东和天猫的618红包活动的第二阶段已经正式开始。为方便大家抢红包,这里汇总了一份领取和使用的时间。>>>天猫618红包点此领取>>>京东618红包点...
日期:06-07
阿里巴巴回应“二次上市”传闻_阿里巴巴上市了?
  5月28日,外媒报道称,知情人士透露,阿里巴巴集团正在考虑通过在香港二次上市筹集200亿美元资金,阿里巴巴发言人对此拒绝置评。   外媒报道,消息人士透露,阿里巴巴正与财务...
日期:03-24
人有人的用处:人力成本视角下的星巴克与瑞幸_星巴克和瑞幸市场竞争分析
从长期的供给来看,招聘、管理和团结员工一直是餐饮品牌构建长期竞争力的关键。作者:MD出品:明亮公司“我们的伙伴知道什么是真诚,什么是虚伪。”星巴克创始人霍华德·舒尔茨在《...
日期:06-19
中国硅谷 创新中心「直通硅谷创新创业大赛华南赛区完美闭关 项目质量获评委点赞」
  从8月初的海选到9月初的初赛筛选,9月21日,直通硅谷创新创业大赛华南赛区终于迎来了最令人激动的环节——复赛。  直通硅谷创新创业大赛一个重要的价值就是遴选好的创业...
日期:02-11
被苹果踢出供应链一年后 欧菲光没缓过来:今年又亏了30多亿「欧菲光到底有没有被苹果剔除供应链」
10月30日下午消息,欧菲光发布公告称,2022年前三季度营收108.24亿元,同比下降37.06%;归母净利润亏损32.81亿元,同比下滑8024%。直播电商会成为电商行业的真风口、新常态吗?其中,第...
日期:10-31
联通世界,创享美好智慧生活_链接世界幸福,新联引领万物互联新时代
  2019年6月28日-29日“为优而来,品赢全球——2019亚马逊全球卖家高峰论坛暨直采大会”,在杭州白马湖国际会展中心隆重举行。新联合众(北京)科技有限公司(简称新联合众)携...
日期:09-11
勇士皆传奇!4399游戏盒《传奇世界》同样精彩
  4399游戏盒《传奇世界》,由盛大网络服务运营,是一款奇幻动作类MMORPG网络游戏。这款网游最大的卖点就是为游戏玩家们构建起了一个完整的虚拟社会体系,每一个玩家都能在游...
日期:07-23
苹果2020年第四季度财报「苹果公布第四季度财报 三个月狂赚1500亿人民币」
中关村在线消息:近日,苹果公司了第四季度的财报。苹果公布第四季度财报总净营收为901.46亿美元,与上年同期的833.60亿美元相比增长8%;净利润为207.21亿美元,与上年同期的205.51...
日期:10-28
Redmi新机开售:8+512G卖2099元_redmi note7价格
早在今年3月,Redmi就推出了面向1000多元入门市场的新系列“Redmi Note 11T Pro”其中拥有Note 11T Pro、Note 11T Pro+两款新机,首发价1699元起。吃金针菇有什么营养价值而现...
日期:10-03
iPhone 15标配三星M12屏:全局1500尼特!_三星屏幕材质m11
iPhone 15的屏幕将迎来升级,全系换成三星M12材质的屏幕,手动峰值亮度超过了1000尼特,全局峰值亮度超过了1500尼特,意味着在户外可以享受更清晰的显示效果。据Elec报道,今年iPhone...
日期:04-11
淘宝又一个重要尝试,藏着商家下一个新红利
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:章航英,授权转载发布。苹果最新iphone概念弯曲折叠酷炫对商家来说,从默默无闻到爆单,可能只是因为一个“热搜梗”。过去...
日期:11-26
摊牌了?全球手机销量排行出炉,华为跌至第10,中国品牌抢占8席「全球手机总销量排行」
时隔3年,华为手机在全球范围内,处于什么水平?都知道,如果没有老美的制裁,华为早已取代三星,成为全球手机出货量最多的手机品牌,稳居全球第一。奈何天意弄人,在过去3年多时间里,华为遭...
日期:06-08
苹果、谷歌起草追踪设备行业规范:打击滥用定位功能_苹果gps追踪器
快科技5月3日消息,苹果与谷歌联合提交了一份行业规范草案,帮助应对蓝牙定位追踪设备遭滥用的问题。如今,定位跟踪设备可以通过众多用户构成的网络,帮助用户寻找钥匙、钱包、行李...
日期:05-03
电视运动健身app_电视端健身app推荐,当贝健身和氧气瑜伽值得一试!
  对于很多上班族而言,每天忙碌完后总想要出汗发泄自己。但是在长时间的工作下,根本抽不开时间去健身房。今天小编就给大家推荐几款健身软件,能够轻轻松松让大家在家里健...
日期:07-14
“拼多多支付”商标注册成功(拼多多支付商标注册成功对股票是利好吗?)
  11 月 23 日消息,拼多多关联公司上海寻梦信息技术有限公司现已成功注册拼多多支付商标。   企查查 App 显示,“拼多多支付”商标国际分类涉办公用品、科学仪器等,最早...
日期:07-17
华为前9月实现营收6713亿元 同比增长9.9%_华为全年营收6000亿
10月23日 消息:今天,华为公布了2020年第三季度财报。财报数据显示,2020年前三季度,华为实现销售收入6713亿元人民币,同比增长9.9%,净利润率8.0%。2020年前三季度业务经营结果基本...
日期:08-07
国内旅游订单创5年来最高:淄博旅游订单增长40倍 你打卡了吗
今年旅游看五一,五一旅游看淄博。这个假期,旅游格外热闹。今天是五一”假期第一天,从中国旅游研究院了解到,今年五一”假期旅游人次有望突破2019年同期水平,达到2.4亿人次。小米5...
日期:04-30