您的位置:首页 > 互联网

华科大未来技术学院「GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大」

发布时间:2023-12-18 19:25:00  来源:互联网     背景:

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。

即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决这一问题。

△ GPT-4V 的错误案例

现在,华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式,并基于这一范式构建了多模态大语言模型 Merlin(梅林)。

Merlin(梅林)是亚瑟王传说中的一个传奇人物,以其强大的魔法和智慧而闻名于亚瑟王传说。传说中梅林拥有预见未来的能力,并对命运有着深刻的理解。

来看看它具体是如何做的?

注:人类可以根据当前观测状态来推理出即将或者接下来一段时间可能会发生的事件,我们将这一能力称为前瞻性思维。

一个简单的例子:

当你在电视上观看 NBA 球赛时,你可以根据场上不同球员的状态来判断接下来可能会出现的场景。

比如当一名进攻球员在持球突破防守人之后,我们有理由判断这名球员即将冲到篮下进行上篮或者灌篮。

再比如当持球人在三分线停下并面向篮筐时,我们则有理由预测这名球员即将进行三分射篮(当然也有可能是假动作为了晃开防守人进行突破)。

Merlin 大模型就可以进行此类预测。

方法介绍

为了探究如何赋予激发多模态大语言模型的前瞻性思维。

我们首先深入分析了人类是如何进行未来事件的预测的。

我们将人类进行未来事件的推理预测视为一个两阶段的系统。

首先一阶段我们会对当前场景进行观测,观测过程当中重点捕捉相关主体的动态线索,第二阶段我们的大脑会根据这个获取的动态线索来分析主体的行为模式(比如奔行走或者奔跑等)及行为意图,进而推理出即将可能发生的事件。

对标多模态大语言模型,我们认为第二阶段是可以较好地完成的,这得益于大语言模型强大的逻辑推理能力。

所以问题出在了第一阶段,也就是当前的多模态大语言模型难以成功捕获相关主体的动态信息,进而限制了其对于未来事件推理的能力。

得到这一结论之后,接下来我们要做就是探究如何让多模态大语言模型学会从当前观测中捕捉相关主体的动态线索信息。

为了实现这一目标,一个直接的方案就是让多模态大语言模型学习预测下一帧的全部信息(也就是以重建下一帧为优化目标)。

不过这么做一方面学习难度较大,另一方面图像或者视频序列存在大量的冗余视觉信息,这并不利于模型学会捕获对应主体的动态信息。

基于上述分析,本文提出了一个以“轨迹”这一结构化表示作为优化目标来建立过去与未来之间的动态关联。我们认为以轨迹作为优化目标有以下几点好处:

(1)轨迹作为一种高度结构化的表征具有较强的信息凝练性,能够帮助模型有效地提取出主体在连续动作中的关键动态信息,从而减少了对冗余视觉信息的学习需求,计算成本更低。

(二)轨迹可以很自然地将过去和未来关联在一起,通过学习预测主体的轨迹,多模态大语言模型必须学会精确地关注对应的主体在不同帧中的对应位置,可以极大地增强模型多图多身份 (Id) 的对齐能力。

基于这些优点,我们设计了一个新型的学习框架,它专注于从多模态输入(如图像、视频和文本)中提取和理解主体的运动轨迹并进行预测。此框架具体如下:

受到当前主流 LLM 学习范式的启发,我们也构建了一个两阶段的学习范式,分别为前瞻思维预训练(Foresight Pre-Training, FPT)以及前瞻思维指令微调(Foresight Instruction-Tuning, FIT)。

在 FPT 中,我们首先会输入包含数帧图片的视觉上下文 tokens 给模型,然后我们会给予相关主体的第一帧的初始观测(初始位置,表观描述或者是动作描述),接着我们要求模型需要根据初始观测来预测出对应主体的整条轨迹。

通过学习预测整条轨迹,模型必须学会正确关注多图中的对应主体并捕捉其动态信息。

华科大未来技术学院

而在 FIT 中,则会加入一些相关的 user prompt 来进行关于相关主体的对话。

值得注意的是,为了在这一阶段激发模型的前瞻性思维,我们也设计了一种以“轨迹”为核心的指令交互形式,我们将其称之为轨迹思维链技术(Trajectory Chain-of-Thought,T-CoT)。

具体来说,当和模型进行对话时,我们会要求模型将提及的相关主体的轨迹一并输出(如上图所示)。

通过输出整条轨迹,强制要求模型关注多图中的对应主体,为后续的未来事件推理提供足够的动态信息。更多方法细节,请阅读论文。

数据构造

设计好了我们的学习范式之后,接下来更重要的是构建合适的数据来让模型进行学习,我们基于现在市面上开源的数据精心构建了一整套多任务学习数据,数据分布具体如下:

主要包括 Caption,Referring,Detection,Tracking,Reasoning 以及 Dialogue 数据 * 表示数据只用于指令微调阶段(FIT)。

这里梅林首次使用了由 tracking 数据构造的 FPT 数据来赋予模型轨迹感知及预测能力。

另一方面,我们也提出了精确任务及输出形式提示(Precise Definition of Task Prompt and Answer Format)技术:

通过告诉大模型具体的任务以及输出形式来避免多任务学习之间的冲突以及对通用多模态能力的损害。

我们后续的实验也表明采用这一技术可以让大模型兼顾学习多任务专有能力以及通用多模态能力。

能力展示

结合上述两个学习过程以及构建的高质量数据,我们搭建了一个全新的通用多模态大语言模型,梅林(Merlin)。

Merlin 可以支持单图或多帧图像序列的输入,可以完成包括检测,跟踪,REC,REG 等一系列任务。

playstationfive

同时得益于我们提出的 FPT 以及 FIT,Merlin 展现了强大基于轨迹的未来推理能力,这里我们挑一些 cases 来展示 Merlin 的能力,更多的测试结果请阅读我们的论文以及后续开放的 demo。

实验分析

为了全面评测 Merlin 的各方面能力,我们设计了一系列性能比较试验以及性质探究实验,这里我们着重挑选几个有启发性的实验来进行分享,更多实验细节,请阅读我们的论文。

1、未来推理(Future Reasoning)评测

由于当前领域内并没有成熟的可以对多模态大语言模型进行评测的 benchmark,所以本工作基于 MMBench 搭建了一套新的 Future Reasoning Benchmark。

在这一 benchmark 上,Merlin 显著超越了现有的主流多模态大模型,展现了强大的未来推理能力。

2、轨迹关联及预测评测

由于 Merlin 将基于初始观测进行相关主体轨迹预测作为预训练中的一项核心学习目标,为了更全面的评测这一学习情况,我们重点选择了 tracking 这一下游任务来进行评测。

这是由于轨迹关联是 tracking 任务中的一个核心子任务,tracking 的评测指标可以一定程度上反应大模型的多图多 id 的对齐能力。

从结果可以看到 Merlin 作为一个通用多模态大语言模型,在 tarcking 任务上甚至超越了一些专家模型,同时值得注意的是这也是多模态大语言模型首次可以执行 tracking 相关的任务。

3、幻觉评测

幻觉问题是大模型领域的一个重要研究课题,由于多模态大语言模型引入了视觉模态,由主体描述和对应的视觉信息无法准确对齐而导致的 bias 也进一步带来了更加严重的幻觉。

本文中我们在 POPE 上对 Merlin 进行了幻觉评测来评估模型的图文之间的对齐能力。如下表所示:

可以看到,Merlin 展现了强大的抗幻觉能力,显著领先当前的主流多模态大语言模型,这证明了我们提出的前瞻性思维训练范式可以增强模型的“识图”能力,让模型减少对图片内容的误识别以及图文之间的不一致问题。

4、多模态综合性能评测

华科大未来技术学院

Merlin 同样在当前的主流多模态大语言模型综合能力(包括 MMBench 以及 MMVet)以及视觉问答能力(包括 GQA 以及 VisWiz)评测 Benchmark 上进行了评测。

评测结果表明 Merlin 都取得了非常有竞争力的结果,展现了 Merlin 强大的通用综合能力。

华科大未来技术学院

5、可视化分析

为了更直观的展现 Merlin 对于动态信息线索的捕捉情况,本文也进行了一个有趣的可视化实验,对于一个具体的对话问答,我们将模型输出的轨迹坐标的 word embedding 与多帧图片的视觉 tokens 之间的注意力图进行了可视化,如下图所示:

我们可以看到,模型输出的估计坐标的 word embedding 可以准确的关注到对应帧中的对应目标主体。

这个可视化结果也进一步证明了“轨迹”是一个非常好的中间表示来帮助多模态大语言模型建立起语言描述和多帧图像对应主体之间的动态关联。

这也从另一个角度解释了为什么 Merlin 具有强大的多模态综合能力以及抗幻觉能力。

思考和总结

Merlin 这一工作向我们展示了“轨迹”这一结构化表示在帮助多模态大语言模型具备前瞻性思维中的重要作用。

从这一点出发我们可以进一步思考回归框(bounding box)以及轨迹(trajectory)究竟在多模态大语言模型的学习中究竟起到了什么样的作用 ——

是作为一种中间形式还是可以作为一种单独的学习优化目标?

另一方面现有的坐标编码是否合理,有没有什么更加适配自然语言的表示形式呢?

我想这些目前都还没有标准答案,需要各位研究者们进一步深入地探索。最后希望 Merlin 这个工作能给多模态大模型社区带来一些新的思考和认知,也欢迎大家持续关注我们的工作,多多交流。

论文:

https://arxiv.org/pdf/2312.00589.pdf

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


返回网站首页

本文评论
网盘的图片_普通下载提供网盘 网店图片更有容身之地
  在电脑网络时代,为了便捷或更安全地存储提取文件,只靠电脑硬盘是远远不够的,因此很多人都会备用有U盘、内存卡、移动硬盘等存储空间。而近年来移动办公、网店的兴起,网络硬...
日期:07-29
魅族19外观设计曝光 后置双单元难评价「魅族19会是全面屏吗」
中关村在线消息:近日,魅族19系列的渲染图被曝光,新机后置摄像头模组采用双环设计,但魅族19的双环为横向排列,正面屏幕为居中挖孔方案。魅族19系列的渲染图被曝光后,引起了网友的激...
日期:10-18
完美收官| AI+机器视觉,应用场景持续拓展。下一站上海,明年7月见!
-300 余家展商亮相展示-94648 名专业观众观展- 26, 000 平方米展示面积2023 年 7 月11- 13 日,由机器视觉产业联盟(CMVU)主办,慕尼黑展览(上海)有限公司承办,以推动机器视觉技术...
日期:07-25
谷歌怕了!ChatGPT狂砸搜索引擎饭碗,CEO劈柴召开大会拉响「红色警报」
新智元报道编辑:编辑部【新智元导读】ChatGPT的横空出世,让Pichai真的怕了。没有大力发展聊天机器人,是谷歌的战略性失误吗?这个月,OpenAI的ChatGPT横空出世,立刻在AI圈掀起一股大...
日期:12-24
CPU功耗奔向400W Intel推水冷散热:15000W都能压_45w cpu被动散热
不论是AMD、NVIDIA还是Intel,大家购买他们的新一代CPU及GPU时都会面临两个问题,一个是价格、性能都在大幅提升,另一个就是功耗越来越夸张,散热压力大增,这事对普通消费者来说还能...
日期:10-05
美国加州一架飞机失事 现场一片狼藉:机上6名乘客遇难「美国一飞机坠毁乘客全部遇难」
7月9日消息,据央视新闻报道,日前,美国加利福尼亚州里弗赛德县发生一起飞机失事事故,机上6名乘客遇难。报道称,官方于4时15分接到飞机失事报告,随后作出回应,救援人员赶往现场时发现...
日期:07-09
iOS / iPadOS 17.0.3发布:iOS 17.0.10快来了_ios17.5
苹果于10月5日向iPhone用户推送了iOS 17.0.3更新(内部版本号:21A360),这是一次间隔12天的更新。 需要注意的是,由于苹果各区域节点服务器配置缓存问题,有些地区的升级更新可能会出...
日期:10-05
「骁龙778G处理器 9mm厚度 「荣耀V」-Purse概念折叠屏即将开售」_荣耀骁龙778g怎么样
来源:中关村在线守望先锋天梯规则近日,荣耀在国际消费电子展(IFA)上发布了一款全新的折叠屏手机——荣耀V Purse。这款手机以其独特的外折叠屏设计和出色的外观设计吸引了众多观...
日期:09-07
残骸找到!搜救方称美国“泰坦号”观光潜艇或发生内爆:5人全部遇难
6月23日早间消息,当地时间18号,美国OceanGate的一艘名为泰坦号”小型观光潜艇下水,旨在探寻当年泰坦尼克号残骸。然而,下水一个多小时后潜水器失联。综合央视新闻等多方消息,当地...
日期:06-24
“湾事通”小程序上线支付宝 三地居民跨境服务一站式办理
为粤港澳三地居民打造的专属小程序上线了!12月9日,第二届数字政府建设峰会暨“数字湾区”发展论坛在广州召开,会上正式宣布推出“湾事通”综合服务平台,首期在支付宝、AlipayHK...
日期:12-10
刘德华、周杰伦以后开线上演唱会可能没那么容易了「刘德华周杰伦同时开演唱会」
  持续火爆、且规模可观的在线演出市场,将面临新的监管和合规要求。  文|张剑;编辑|郭丽琴  来源:财经E法;  今年以来,周杰伦、梁静茹、李健、刘德华等明星都举办了现象...
日期:09-30
联想 a798t「联想 a710 拆机」
联想a798t是一款采用Android操作系统的智能手机,该手机的外观设计简洁,机身采用金属材质,手感舒适,机身尺寸为138.3*68.8*9.5mm,重量为139g,便携实用。该手机搭载了1.3GHz四核处理...
日期:05-31
一加120Hz高帧屏刷新用户体验 顺丰丰修标杆售后异曲同工
  1月13日,一加CEO刘作虎发博官宣一加已经完成了120Hz刷新率屏幕的研发。据其透露,这一次研发并不止于亿元定制120Hz那么简单,而是在“轻快流畅”基础上对顶级屏幕带来的最...
日期:07-15
ai 科技「科技公司都用AI干啥?分享将AI集成到产品中的12种方式」
4月18日 消息:AI应用程序和工具是这个领域的新宠,许多科技巨头已经开始利用AI来增强自己的产品。包括potify、Notion、Buffer 和 Quora 现在有一个很大的共同点——它们都在...
日期:04-18
小米27英寸165hz显示器用的哪块面板「999元!小米27寸165Hz 2K显示器发布」
小米京东自营旗舰店的显示,Redmi G27Q 2K电竞显示器仅售999元,这个价格可以说是非常优惠。此款显示器在618大促期间被誉为“卷王”。kickstarter众筹官网有什么优势这款显示器...
日期:06-16
美团引进送餐机器人 无接触配送颇受用户青睐_美团研发无人配送
  假期的不断延长,让我们有更多的时间陪伴家人,却也让餐饮业损失惨重。作为受到冲击最大的行业之一,餐饮业容纳了超过4000万的就业人口;据中国烹饪协会统计,疫情期间,78%的餐...
日期:03-20
格力解散手机团队?董明珠曾夸口:分分钟销量一个亿,比苹果强!
最近一段时间,格力公司时常登上热搜引发网友热议,前几天被董明珠寄予厚望的“接班人”孟羽童离开公司,辞职还是被辞退陷入罗生门,不少网友坚持追番吃瓜。现在一波未平一波又起,消...
日期:05-20
CUDOS将于8月2日上线官方链上质押,年内发布主网(cudos币以太坊链上质押)
        跨链去中心化计算网络CUDOS今日宣布CUDOS实现其网络开发的又一重要里程碑,将于8月2日正式上线CUDOS代币的以太坊链上质押。   过去几个月中,CUDOS团队一直在...
日期:07-06
小米MIX Fold 3曝光:屏下摄像头 潜望长焦 再无短板「小米mix fold光学变焦」
快科技5月30日消息,博主数码闲聊站透露,小米MIX Fold 3弥补了上一代的遗憾,内屏配置了屏下摄像头,同时支持了50W无线闪充,还搭载了5倍潜望式长焦镜头。京东和淘宝大战华为mate 50...
日期:05-30
视频号完善小店商品参数:商家需在期限内完成编辑 逾期将下架商品链接
5月19日 消息:日前,腾讯发布公告称,为了营造良好的经营环境,推动平台生态健康发展,即日起至5月31日,平台将要求对应类目的商品参数进行完善。谷歌pixelbook笔记本2020小米的彩虹...
日期:05-19