您的位置:首页 > 互联网

字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩

发布时间:2023-08-15 18:49:43  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

字节大模型,BuboGPT来了。

支持文本、图像、音频三种模态,做到细粒度的多模态联合理解。

答哪指哪,什么讲了什么没讲,一目了然:

除了有“慧眼”,还有“聪耳”。人类都注意不到的细节BuboGPT能听到:

Audio-1-chime-bird-breeze,量子位,20秒

图片

前方高能!

三模态联合理解,文字描述+图像定位+声音定位,一键搞定,准确判断声音来源:

Audio-7-dork-bark,量子位,6秒

图片

别着急,还没完!

即使音频和图像之间没有直接关系,也可以合理描述两者之间的可能关系,看图辨音讲故事也可以:

Audio-11-six-oclock,量子位,1分钟

图片

这么一看,BuboGPT干点活,够“细”的。

研究人员表示:

MiniGPT-4,LLaVA和X-LLM等最近爆火的多模态大模型未对输入的特定部分进行基础性连接,只构建了粗粒度的映射。

而BuboGPT利用文本与其它模态之间丰富的信息且明确的对应关系,可以提供对视觉对象及给定模态的细粒度理解。

因此,当BuboGPT对图像进行描述时,能够指出图中对象的具体位置。

图片

BuboGPT:首次将视觉连接引入LLM

除了上面作者分享在YouTube的示例,研究团队在论文中也展示了BuboGPT玩出的各种花样。

活久见青蛙弹琴!这样的图BuboGPT也能准确描述吗?

一起康康回答得怎么样:

图片

不仅能够准确描述青蛙的姿势,还知道手摸的是班卓琴?

问它图片都有哪些有趣的地方,它也能把图片背景里的东西都概括上。

BuboGPT“眼力+听力+表达力测试”,研究人员是这样玩的,大家伙儿先来听这段音频。

Audio-9-hair-dryer,量子位,5秒

再来看看BuboGPT的描述怎么样:

图片

图片上的人的性别、声音来源、图片中发生的事情,BuboGPT都能准确理解。

效果这么好,是因为字节这次用了将视觉定位引入LLM的方法。

具体方法我们接着往下看。

BuboGPT的架构是通过学习一个共享的语义空间,并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现多模态理解。

为探索不同视觉对象和多种模态之间的细粒度关系,研究人员首先基于SAM构建了一个现成的视觉定位pipeline。

这个pipeline由标记模块(Tagging Module)、定位模块(Grounding Module)和实体匹配模块(Entity-matching Module)三个模块组成。

图片

流程大概是这样婶儿的:

首先,标记模块是一个预训练模型,可以生成与输入图像相关的多个文本标签。

基于SAM的定位模块进一步定位图像上与每个文本标签相关的语义掩模或边界框。

然后,实体匹配模块利用LLM的推理能力从标签和图像描述中检索匹配的实体。

研究人员就是通过这种方式,使用语言作为桥梁将视觉对象与其它模态连接起来。

为了让三种模态任意组合输入都能有不错的效果,研究人员采用了类似于Mini-GTP4的两阶段走训练方案:

单模态预训练和多模态指令调整

图片

具体而言,BuboGPT使用了ImageBind作为音频编码器,BLIP-2作为视觉编码器,以及Vicuna作为预训练LLM。

在单模态预训练阶段,在大量的模态-文本配对数据上训练相应的模态Q-Former和线性投影层。

对于视觉感知,研究人员仅对图像标题生成部分进行投影层的训练,并且保持来自BLIP2的Q-Former固定。

对于音频理解,他们同时训练了Q-Former和音频标题生成部分。

在这两种设置下都不使用任何提示(prompt),模型仅接收相应的图像或音频作为输入,并预测相应的标题(caption)。

图片

不同输入的指令遵循示例

在多模态指令调整阶段,构建了一个高质量的多模态指令数据集对线性投影层进行微调,包括:

  • 图像-文本:使用MiniGPT-4和LLaVa中的两个数据集进行视觉指令调优。

  • 音频-文本:基于Clotho数据集构建了一系列表达性和描述性数据。

  • 音频-图像-文本:基于VGGSS数据集构建了<音频,图像,文本>三模态指导调优数据对,并进一步引入负样本来增强模型。

值得注意的是,通过引入负样本“图像-音频对”进行语义匹配,BuboGPT可以更好地对齐,多模态联合理解能力更强。

目前BuboGPT代码、数据集已开源,demo也已发布啦,我们赶紧上手体验了一把。

demo浅玩体验

BuboGPT demo页面功能区一目了然,操作起来也非常简单,右侧可以上传图片或者音频,左侧是BuboGPT的回答窗口以及用户提问窗口:

图片

上传好照片后,直接点击下方第一个按钮来上传拆分图片:

图片

就拿一张长城照片来说,BuboGPT拆成了这个样子,识别出了山、旅游胜地以及城墙:

当我们让它描述一下这幅图时,它的回答也比较具体,基本准确:

图片

可以看到拆分框上的内容也有了变化,与回答的文本内容相对应。

再来一张图片,并带有一段音频,BuboGPT也正确匹配了声音来源:

Audio-8-bicycle_bell,量子位,22秒

图片

当然,它也会出现识别不成功,表述错误的情况,比如说下面这张图中并没有人,音频也只是钟声,但它的描述和图片似乎并不搭边。

图片

最值得买的投影仪

感兴趣的家人赶紧亲自上手试试~~

传送门:

[1]https://bubo-gpt.github.io/

[2]https://huggingface.co/spaces/magicr/BuboGPT(demo)


返回网站首页

本文评论
广西发现九尾狐甲鱼化石 网友:原来神话是真的?「九尾狐狸化石的图片」
中国科学院古脊椎动物与古人类研究所的一项最新研究发现,他们在广西发现了一种新的盔甲鱼家族成员——九尾狐甲鱼,长约10厘米,生活在4.1亿年前的早泥盆世,全身被细小的菱形鳞片...
日期:04-14
瑞士奢华美容仪品牌GEMO金茉打响618首战!登快消新品牌TOP2
巩俐代言的GEMO金茉首 次参加 618 年中大促,便取得了令人瞩目的优异成绩!数据显示,GEMO金茉在天猫 618 快消新品牌开门红全周期店铺成绩单中位居TOP2,并成为 6000 元以上的高端...
日期:06-17
Redmi K60系列参数流出:骁龙8+芯片、2K屏幕
今日消息,博主数码闲聊站暗示,Redmi K60系列采用2K屏幕,搭载高通骁龙8+旗舰处理器,电池容量为5500mAh,支持67W有线闪充、30W无线闪充。结合此前爆料的信息来看,骁龙8+版Redmi K60...
日期:10-13
Facebook拒绝分拆 参议员敦促政府展开反垄断调查(facebook面临的威胁)
  Facebook周四拒绝了联合创始人克里斯-休斯(Chris Hughes)分拆这家全球最大的社交媒体公司的要求。议员们敦促美国司法部展开反垄断调查。   Facebook因其网络上的数...
日期:09-12
“奇想青年π”大学生VLOG大赛完美收官 共情有趣展现当代大学生多元精神风貌
  近日,奇想青年π-全国大学生vlog大赛完美收官。该赛事历程4个月,覆盖全国上百所高校,举办6场校园宣讲会,投放千万级资源大力扶持,吸引上万名学校报名参赛,共征集参赛视频五万...
日期:08-01
金山卫士推送微软8月补丁 IE所有版本存在高危漏洞
  月10日凌晨,微软刚刚发布了8月份的安全补丁,其中涉及到所有浏览器IE版本中的7个安全漏洞,最严重的漏洞可能会使网民通过IE浏览特制网页时允许远程执行代码,成功利用这些漏...
日期:07-22
《三体》的第一枪,为什么是动画打响的?_三体动画片哔哩哔哩
声明:本文来自于微信公众号 娱乐硬糖(ID:yuleyingtang),作者:谢明宏,授权转载发布。单论IP开发跌宕起伏的程度,《三体》就称得上是一个传奇,一度简直带点“诅咒”。硬糖君第一次在...
日期:12-12
马斯克:特斯拉可能会向其他汽车制造商“开放更多源代码”「早在2014年,马斯克就宣布,特斯拉正在将其专利」
5月26日消息,美国当地时间周四,特斯拉首席执行官埃隆·马斯克(Elon Musk)在与福特首席执行官吉姆·法利(Jim Farley)的对话中表示,特斯拉可能会向其他汽车制造商开放部分汽车操作系...
日期:05-26
网易联合创新中心落地上海奉贤,加快打造“数字江海”新地标
  近日,以“数字、转型、服务、生态”为主题的“第二届中国(上海)工业品在线交易节东方美谷·爱企谷5.27专场”在上海爱企生产性服务业功能区开幕。开幕式上,“上海奉贤网...
日期:02-15
谷歌搜索宣布全面改版搜索框下增加个性化信息流
谷歌 据AndroidPolice北京时间9月25日报道,20年来,谷歌的极简主义搜索主页一直是其最具......
日期:09-25
360上门修电脑系统_360独家推“电脑门诊” 免费修理电脑常见故障_360产品新闻
  电脑出故障可以免费修理了。最近,360安全卫士独家推出“电脑门诊”功能,为广大网民提供免费维修服务。用户只需点击软件上的按钮,选择需要解决的问题,即可一键修理各种“疑...
日期:07-22
《醉美中国》掀国酒热潮,天猫正品好货抢占春节档_江苏卫视《酒美中国》
  历经岁月的发酵,国酒散发出全新的时代气息,与当代年轻群体对中国传统文化的审美愈加融合。这种历久弥新的人文魅力,在天猫美食集结古越龙山、舍得、汾酒、泸州老窖等头...
日期:07-10
消息称百度“好运中国年”连夜追加12亿,22亿红包将重磅上线(百度 好运中国年)
  在抖音、快手预备这个春节狂发20亿和21亿红包之后,听说百度已经连夜追加了12亿,今年百度好运中国年的红包金额达到22亿。若消息属实,抖音、快手、百度三家互联网大厂的红...
日期:07-10
储殷:舒适就是没有用过奢侈品 用过以后就成了必需品
凤凰网科技讯 3月31日下午消息,“科技卫浴 数字中国 九牧数智卫浴战略暨i90数智马桶新品发布会”在北京凤凰中心隆重举行,这是全球卫浴行业首次以“科技卫浴战略”为主题的发...
日期:04-01
微信内存越占越大什么原因「狂吃“内存”!微信为何越用越大?看到最后我淡定了」
近日,话题微信吃内存”登上微博热搜,引起网友热议,网友纷纷晒出自己手机的微信所占空间截图,几十GB到上百GB都有。其实,关于微信占用空间太大的吐槽早已有之,曾经还出现过微信安装...
日期:05-22
演唱会抢不到票?在家用大眼橙X7D Pro大屏感受现场氛围!_大眼橙x7d评测
近期TFBOYS“十年之约”演唱会在西安举办,引起了互联网热烈的讨论,“这一场演唱会带动西安4. 16 亿元的旅游收入”、“粉丝灯牌大战照亮西安的夜晚”、“优酷线上直播收入至少...
日期:08-08
淘宝兴趣人群_淘宝推出种草兴趣社群友啥 App
  1 月 27 日消息,据 Tech 星球报道,近日淘宝推出了可以种草的兴趣社群 App“友啥”。该款 App 以兴趣驱动社交,产品功能主打好物交流兴趣圈,搭建兴趣交流与好物推荐的桥梁。...
日期:09-11
苹果A16芯片造价曝光:达A15的2.4倍_苹果a14芯片成本
中关村在线消息:近日,有外媒曝光了iPhone 14 Pro/Pro Max两款机型内搭载的A16芯片的信息,称其造价高达110美元(折合人民币约782元),是上代A15仿生芯片的2.4倍有余。根据介绍,A16仿...
日期:10-11
5千到8千元罗兰电钢琴618购买攻略「罗兰电钢琴手感怎么样」
大家好,今天推荐预算 5 千- 8 千元罗兰电钢琴热门型号,音色和键盘帮助培养良好的乐感和手指技术,丰富实用的练习辅助功能,可陪伴练就扎实基本功,随时练琴不扰民,满足考级练习需求,...
日期:05-30
zstack和阿里云_十倍增长,ZStack阿里云版如何炼成了专有云中的爆款?
  “ZStack阿里云版在今年上半年取得了一个亮眼的成绩——这款被称为阿里云专有云敏捷版的云产品,从客户增速和销量两个维度,同比2018年都实现了10倍的增长。”ZStack合伙...
日期:12-19