您的位置:首页 > 互联网

最强开源多模态生成模型MM-Interleaved:首创特征同步器_网易订阅

发布时间:2024-02-02 02:08:48  来源:互联网     背景:

机器之心专栏

机器之心编辑部

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,AGI 的下一步—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

想象一下,AI 不仅会聊天,还长了眼睛,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。

最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力,支持任意穿插的图文输入和输出,带来了多模态生成大模型的崭新突破。



论文地址:https://arxiv.org/pdf/2401.10208.pdf

项目地址:https://github.com/OpenGVLab/MM-Interleaved

模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以轻松编写引人入胜的旅游日志和童话故事,准确理解机器人操作,就连分析电脑和手机的 GUI 界面、创作独特风格的精美图片都不在话下。甚至,它还能教你做菜,陪你玩游戏,成为随时听候指挥的个人助理!话不多说,直接看效果:

轻松理解复杂多模态上下文

MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文本答复,它既能算水果数学题:



也能结合常识推理出 Logo 图像对应的公司并进行介绍:

微软机器人叫什么



还能精确识别用红色圆圈标注出的手写文字内容:



此外,模型也能直接理解通过序列图像表示的机器人动作:



以及在 Minecraft 中如何建造围栏这样的游戏操作:



甚至能结合上下文,手把手地教用户如何在手机 UI 界面上配置灰度:



以及精准定位找到那架藏在后面的小飞机:



脑洞全开生成不同风格图像

MM-Interleaved 模型同样可以出色地完成各种复杂的图像生成任务。比如根据用户提供的详细描述生成一张三角钢琴的剪影:



或者当用户以多种形式指定所需生成的图像应当包含的物体或风格时,MM-Interleaved 框架也可轻松应对。

比如生成一张水彩风格的大象:



按照狗的风格生成一张猫的画:



在向日葵花丛里的一座木房子:



以及在生成海浪图像时,根据上下文智能推断相应的风格。

图像生成兼顾空间一致性

更令人惊喜的是,MM-Interleaved 还具备根据输入的分割图和对应的文本描述生成图像的能力,并确保生成的图像与分割图在空间布局上保持一致。



这一功能不仅展示了模型在图文生成任务中的卓越表现,同时也为用户提供了更加灵活和直观的操作体验。

自主生成图文并茂的文章

此外,只需提供一个简单的开头,MM-Interleaved 就能自主进行续写,生成语义连贯、图文并茂的文章,题材多样。

无论是关于一朵玫瑰的童话故事:



microsoft teams

教你制作苹果汁的教程指南:



还是卡通动漫中的情节片段:



MM-Interleaved 框架都展现出了卓越的创造力。这使得 MM-Interleaved 框架成为了一个无限创意的智能合作者,能够帮助用户轻松打造引人入胜的图文作品。

MM-Interleaved 致力于解决图文交错多模态大模型训练中的核心问题,通过深入研究提出了一种全新的端到端预训练框架。

基于 MM-Interleaved 训练的模型,在参数量更少、不使用私有数据的情况下,不仅在多个零样本多模态理解任务上表现优越,领先于国内外最新研究工作,如 Flamingo、Emu2 等。

还能进一步通过监督微调的方式,在视觉问答(VQA),图像描述(image caption)、指代理解(referring expression comprehension)、图生图(segment-to-image generation)、视觉故事生成(visual storytelling)等多个下游任务上取得更为优异的综合性能。

目前模型的预训练权重及相应代码实现均已在 GitHub 开源。



多模态特征同步器携手全新端到端训练框架



MM-Interleaved 提出了一种全新的端到端训练框架,专门面向图文交错数据。

该框架支持多尺度的图像特征作为输入,不对图像和文本的中间特征添加任何额外约束,而是直接采用预测下一个文本 token 或下一张图像的自监督训练目标,实现单阶段的统一预训练范式。

与以往方法相比,MM-Interleaved 不仅支持交错生成文本和图像,还能高效捕捉图像中更多的细节信息。



此外,MM-Interleaved 的关键实现还包括一个通用的多模态特征同步器(Multi-modal Feature Synchronizer)。

该同步器能够动态注入多张高分辨率图像的细粒度特征到多模态大模型和图像解码器中,实现了对文本和图像的解码生成的同时进行跨模态的特征同步。

这一创新设计使得 MM-Interleaved 为多模态大模型领域的发展注入了新的活力。

多项任务性能领先





如表 1 和表 3 所示,MM-Interleaved 在零样本多模态理解和生成任务上均取得了卓越的性能。这一成就不仅证明了该框架的强大能力,也突显了其在应对多样化任务时的强大通用性。





表 2 和表 4 展现了 MM-Interleaved 在进行进一步微调后的实验结果,其在指代理解、基于分割图生成图像、图文交错生成等多个下游任务上的性能也十分优异。

这表明 MM-Interleaved 不仅在预训练阶段表现出色,而且在具体任务微调后依然能够保持领先地位,从而为多模态大模型的广泛应用提供了可靠的支持。

结论

MM-Interleaved 的问世标志着多模态大模型的发展朝着实现全面端到端的统一建模和训练迈出了关键一步。

这一框架的成功不但体现在其预训练阶段所展现的卓越性能,而且还体现在微调后在各个具体下游任务上的全面表现。

其独特的贡献不仅在于展示了强大的多模态处理能力,更为开源社区构建新一代多模态大模型开启了更为广阔的可能性。

MM-Interleaved 也为未来图文交错数据的处理提供了新的思路和工具,为实现更加智能、灵活的图文生成和理解奠定了坚实基础。

我们期待看到这一创新为更多领域相关应用带来更多惊喜。


返回网站首页

本文评论
猛玛探境直播相机,让中小企业/个人/工作室都能快速搭建直播间开播带货
国产无线影视器材品牌MOMA猛玛上周发布全新品类产品:直播相机——探境,为直播而生。MOMA探境,是一部为直播而生的相机,解决了中小企业、个人工作室直播带货的一系列痛点。2021...
日期:05-27
暴雪寒潮双预警生效!中东部今日迎雨雪最强时段_今年暴雪天气
快科技12月10日消息,据中央气象台官网消息,中央气象台今晨继续发布暴雪蓝色预警及寒潮蓝色预警,10日至11日,中东部地区将出现较大范围的雨雪天气。亚马逊会员优惠活动iphone13年...
日期:12-10
谷歌员工要求公司为临时工提供堕胎福利_谷歌员工要求公司为临时工提供堕胎福利是真的吗
讯 北京时间8月19日消息,超过650名Alphabet旗下谷歌员工向公司请愿,要求公司为合同工提供堕胎福利,暂时停止向反堕胎政治家捐款,保护好用户,使之免受虚假堕胎信息及警方要求的影...
日期:08-19
周鸿祎公开演示大模型产品“360智脑”及“360鸿图”_周鸿祎360是国企吗
第七届世界智能大会在天津开幕,360集团创始人周鸿祎在会上发表主题演讲并展示了两款大模型产品“360智脑”以及AI生图工具“360鸿图”。斯柯达会放弃中国市场么据悉,“360智脑...
日期:09-28
工信部:2g、3g的退网条件已逐渐成熟「工信部明确:2G3G面临“退网” 在充分保障用户权益前提下实施」
近期,工信部在人民网领导留言板回复了用户对于2G/3G退网的关切问题。工信部明确表示,2G/3G的退网是移动通信网络更新换代的必然选择,也是国际上普遍采用的做法。然而,工信部强调...
日期:12-05
凌晨一辆SUV停在路中央一动不动 竟是车主酒驾后睡着了「男子酒驾开车在路边睡着 第二天打开车门一看懵了」
7月4日消息,日前在浙江宁波鄞县大道一路口处,有一辆SUV长时间停在路口机动车道内。交警接到报警后赶完现场,该车司机在驾驶室里面酣睡,身上酒气很重。pixel4xl可以指纹支付吗交...
日期:07-04
移动硬盘多少钱「4tb移动硬盘多少钱」
本文目录一览: 1、听说移动硬盘500G的大概在350元左右,但在淘宝上东芝的移动硬盘1T的不到200元,可信吗?能用吗?2、为什么闲鱼上的移动硬盘那么便宜?3、移动硬盘哪买可靠?4、...
日期:06-02
新茶饮2023:茶底革命扯掉旧王冠_新茶饮定义
声明:本文来自于微信公众号 新熵(ID:xinshangxz),作者:古廿,授权转载发布。新茶饮永不眠。喜茶和奈雪的巨头之争未休,今年又迎来了新王。根据第三方数据显示,截至11月份国内市场上霸...
日期:12-16
马斯克确认“大赦”推特:下周开始解封被禁账户_马斯克删推特
凤凰网科技讯 北京时间11月25日消息,推特新老板埃隆马斯克(Elon Musk)周四表示,推特将从下周开始大幅扩大被禁用户的解封范围,这是他对该网站内容审核政策的一次重大反转。根据...
日期:11-28
快手修订《【发布低质量直播内容】实施细则(营销)》_快手发布产品的规则
10月28日 消息:今天,快手发布《【发布低质量直播内容】实施细则(营销)》修订公告,增加对“播放录制音频”、“长时间黑屏或展示静态图片”、“大小屏直播,大屏播放录制内容”等低...
日期:10-30
凯文·凯利:华为手机5G技术更先进,封锁并不能将其扼杀_华为手机5g之痛解决有望
据新浪财经报道,2023ESG全球领导者大会于9月13日起在上海举行。会前,新浪财经总编辑李兀与到会的《连线》杂志创始主编凯文·凯利(Kevin Kelly)交谈。 华为是他提及最多的单词之...
日期:09-14
石楠花好恶心「味道不可描述!石楠花又腥又臭为何大面积种植:吸附有毒气体」
快科技4月11日消息,春天来了,石楠花那股清新脱俗的味道弥漫着各个街道,有人说像84消毒水,也有人说那是不可描述的生命味道。真正的高端手机electisan电动车也有人不理解,既然这么...
日期:04-11
哪吒汽车2月份交付10073台 同比大涨41.5%_哪吒汽车 2021
3月1日,哪吒汽车2月销量出炉。2月份,哪吒汽车交付10073台,同比增长41.5%。其中,哪吒V车系交付5013台,哪吒U车系交付3012台,哪吒S交付2048台,环比增长35%。截至2023年2月,哪吒汽车累...
日期:03-02
亚马逊将在全球开发71个可再生能源新项目_全球可再生能源产业加速发展(国际视点)
  IT之家9月23日消息,据华尔街日报报道,当地时间周三,电商零售巨头亚马逊公司宣布,将扩大旗下可再生能源资产组合,会在全球开发71个新项目,总计提供2.7GW的清洁能源电力。  亚...
日期:10-03
Firefox引入AI检测工具Fakespot 可识别虚假评论
划重点:- 在在线购物的广阔领域中,辨别真实的产品评论和虚假评论变得越来越困难。- Mozilla的Firefox将整合评论检查工具,以解决这一问题。- Mozilla收购了Fakespot这款工具,用...
日期:10-18
苹果5s图片报价_苹果5s图片报价多少
苹果5s是2013年苹果公司推出的一款手机,在当时创造了很高的销售记录。现在,苹果5s虽然已经不是最新款的苹果手机,但仍然是一款不错的手机,这里给大家整理了一些苹果5s的图片报价...
日期:05-30
CES2024精彩不止于屏:三星打造屏幕体验区,开拓家庭娱乐新边界_三星 ces
1 月 9 日至 12 日, 三星电子于拉斯维加斯举行的 2024 年国际消费电子展(CES 2024)上举办新闻发布会,分享其未来发展愿景。越来越多的消费者渴望通过高品质家电来获得多元化的娱...
日期:01-12
目氪TM自研光机实现技术普惠,坚果N1投影将三色激光光源下探至3K价位段
1946 年,第 一台计算机eniac在美国宾夕法尼亚大学诞生, 30 吨的庞然巨物注定它无法走进普通家庭。将近 80 年后的今天,苹果的MacBook个人电脑,重量不足1Kg,算力却达到了eniac的数...
日期:04-20
苹果 iPhone 15 Pro Max 的屏幕峰值亮度将提高到 2500 尼特_苹果11pro max峰值亮度
IT之家 2 月 8 日消息,根据国外科技媒体 AppleInsider 报道,引用可靠消息源 ShrimpApplePro 的最新推文信息,苹果将会进一步提高 iPhone 15 Pro 和 iPhone 15 Ultra(或 Pro Max)...
日期:02-08
张勇宣布阿里巴巴组织变化,张建锋不再担任阿里云智能总裁__阿里巴巴cto张建锋
12月29日消息,阿里巴巴集团董事会主席兼CEO张勇发出全员邮件,宣布组织变化,并将新年关键字定为“进”。组织变化方面,张建锋不再担任阿里云智能总裁,张勇将兼任阿里云智能总裁。...
日期:12-29