您的位置:首页 > 互联网

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

发布时间:2024-06-18 22:59:32  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。

但业界还缺少可以全面评估大模型视频推理能力的基准。

终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。

Gemini1.5Pro在这份榜单中遥遥领先,显示出在视频理解领域的“霸主”地位。Video-MME一经推出,被谷歌首席科学家Jeff Dean连续转发了三次。

GPT-4o、谷歌Gemini1.5Pro标榜的视频推理能力终于在全新的、更复杂的多模态基准Video-MME上首次得到了验证。

同时,各大公司以及研究机构,例如NVIDIA、ByteDance等模型也加入了混战。

Video-MME由中科大、厦大、港中文等高校联合推出,代码和数据集均已开源。

全人工标注高质量数据集

该基准采取全人工标注,具有区别于现有数据集的显著特点。在以下的例子中,准确回答该问题需要同时从视觉、字幕以及音频中同时获取信息,有效信息直接横跨30分钟的间隔:

Video-MME具有以下显著特点:

时间维度的广泛性:视频时长从11秒到1小时不等,涵盖短(<2分钟)、中(4-15分钟)、长(30-60分钟)三种不同的视频时长,全面评估模型在不同时间跨度下的上下文多模态理解能力;

数据模态的丰富性:除了视频帧,Video-MME还整合了字幕和音频模态输入,全面评估大模型的多模态处理能力;

视频类型的多样性:覆盖了知识、影视、体育、艺术、生活记录和多语言6个主要领域,涉及30个细粒度子领域;

注释质量的高标准:900个视频,共254小时的内容由具备大模型背景的专业人员手动标注与验证,产生了2,700个问答对。问题类型涵盖感知、认知和总结概括等12种类型;

可靠的有效时长(Certificate Length准确回答问题所需的最短时长):对于短视频、中视频和长视频,Video-MME数据集的有效时长中位数分别为26.0秒、164.7秒和890.7秒,要求模型消化更长的视频内容才能回答问题;

全面的实验评估:文章选取了6种代表性的开源视频语言模型以及闭源模型Gemini1.5Pro和GPT-4V/o进行全面的实验分析。同时文章还选取了基于图片的多模态大模型进行评测(泛化到多图输入),证明其同时适用于图片&视频多模态大模型。

文章选取了多种代表性的开源视频多模态大模型,包括ST-LLM、VideoChat2-Mistral、Chat-UniVi-V1.5、LLaVA-NeXT-Video和VILA-1.5,以及闭源模型Gemini和GPT-4V/o 。同时,基于图片的多模态大模型包括Qwen-VL-Chat、Qwen-VL-Max和InternVL-Chat-V1.5。

在商业模型中,Gemini1.5Pro在视频理解方面表现突出,在加以字幕辅助的情况下以81.3%的准确率领先,并在与GPT-4V和GPT-o的对比中分别超出18%和4.1%。

尽管随着视频时长增加,其表现略有下降,但在长视频上的表现(加字幕)优于所有开源模型在短视频上的表现。

同时,Gemini1.5Pro还支持音频模态的输入,模态支持的更广。而在开源模型中,来自NVIDIA的VILA-1.5以59.4%的准确率表现最佳。然而,相比Gemini1.5Pro,VILA-1.5在计数问题、动作识别和时间感知方面仍然存在显著差距。

同时,随着视频时长的增加,所有模型的表现均呈现明显的下降趋势,这也说明面对更长的上下文记忆以及更为复杂的任务时模型还有很大的提升空间。此外,实验还揭示了字幕和音频信息能显著增强视频理解能力,尤其是对于长视频的理解。

在三十种不同类型的视频上,Gemini1.5Pro展现出不同的性能。例如,有的任务对字幕和语音的依赖程度更高,如Basketball的长视频,加上字幕和语音能够显著提升性能。详细的实验结果请参照论文原文。

苹果的小孩到底是谁的

综合实验结果可以看出,当前的多模态大模型在视频理解,尤其是长视频理解方向仍然有很长进步空间,一方面是要提升模型的多模态长上下文理解能力,Gemini1.5Pro最高支持百万长度的上下文窗口,这是其表现优异的依仗,另一方面也亟需构建相应的高质量长视频理解数据集,这方面当下仍处于空白。

amour secret歌词中文

论文链接:https://arxiv.org/pdf/2405.21075

项目主页:https://video-mme.github.io

项目仓库:https://github.com/BradyFU/Video-MME

—完—


返回网站首页

本文评论
日本知名面包公司承认产品混入老鼠残骸:体长约6厘米的崽_日本面包大师都有谁
快科技5月22日消息,昨日,总部位于名古屋市的敷岛面包公司在其官网发布公告,对近期该公司面包产品中混入老鼠残骸事件进行道歉和说明。曹德旺100亿办大学美是最好的礼物据了解,本...
日期:05-22
女子入职被公司乐捐制度吓退:这种乐捐是变相罚款 自己立马跑路了
3月8日消息,据白鹿视频报道,广东广州一女子称自己入职时看到办公室行政制度中的乐捐制度,立刻劝退了。谢女士称,找工作时有点心力交瘁,这家公司面试比较简单,问了几个常规问题就录...
日期:03-09
理想正与苹果洽谈Apple music事宜
中关村在线消息:据国内媒体报道,国产新势力品牌理想汽车创始人李想在近日的直播中向大家透露称,理想近期也正在就Apple Music的相关事宜与苹果进行谈判。但李想称与苹果谈判的...
日期:01-24
oppo进入ai时代AI手机时代再提速,OPPO公布全新AI战略_oppo的ai智能是谁
来源:中关村在线2024年2月20日,深圳——今日OPPO举办AI战略发布会,分享新一代AI手机的四大能力特征,展望由AI驱动的手机全栈革新和生态重构的趋势,并发布由OPPOAI 超级智能体和AI...
日期:02-21
史上最强暑期档!中国电影票房连续39天破亿 刷新影史纪录「中国电影票房历史纪录」
快科技7月29日消息,据灯塔专业版数据,截至7月29日,全国大盘单日票房连续39天破亿,刷新中国影史大盘票房连续破亿纪录。与此同时,截至7月29日11时22分,2023年暑期档(6月1日-8月31日)...
日期:07-29
苹果翻车「iPhone 14再翻车!车祸检测屡次误报」
今年新发布的iPhone 14有一个亮眼功能是结合iOS 16系统增加的车祸监控的功能。此前的新闻中,有车主驾车撞树触发了车祸检测,iPhone 14也表现优秀,不过从新的消息来看,iPhone 14...
日期:10-22
史上第一款免费智能热力图 百度统计热力图正式上线(百度热力图是实时的吗)
  2011年1月10日,百度统计迎来了历史上最为重要的一次功能升级,全球第一款免费智能热力图功能正式上线。据悉,热力图可显性、直观地将网页流量数据分布通过不同颜色区块呈现...
日期:07-25
儿童手表 小米_华米科技携儿童手表重磅来袭,快乐鸭儿童手表给孩子带来快乐
  在电子产品越发先进、种类越发多样的今天,使用电子设备已经不仅仅是成人的特权了,小孩子也能戴上专属的儿童手表,尽管儿童手表的娱乐性不如成人智能手表强,然而经过2G、3G...
日期:07-17
你还有理由不升吗!Windows 12发布时间曝光:微软重磅更新_windows12正式版什么时候出
快科技12月6日消息,据外媒最新报道称,微软目前已经准备,将于2024年推出为Windows 12。macbook pro 2020 i5处理器型号虽然目前还不清楚下一个版本的Windows是Windows 11 24H2还...
日期:12-06
Intel:我们仍然爱PC Ultrabook最配Win8(ultrabook笔记本电脑)
  10月17日早间消息,Intel CEO保罗·欧德宁(Paul Otellini)上周在Dell World上表示,Intel仍然支持PC的发展,而Ultrabook超薄笔记本将能更好地满足消费者和企业用户的需求。...
日期:07-24
三星即将推出的 Galaxy Book 4 系列规格泄露,可能搭载英特尔 AI 芯片以运行Samsung Guass专有 AI 模型
12 月 5 日消息:三星正准备在年底前揭晓其全新 Windows 笔记本电脑阵容。据最近的泄露消息,Galaxy Book 4 系列的规格和产品图片已经几乎完全曝光。额外的信息显示,三星可能会...
日期:12-05
CISP攻防领域2019年度会议成功召开 注册人数突破千人规模(cisp全国人数2020)
  8月23日,2019北京网络安全大会(BCS2019)进入第三天,CISP攻防领域2019年度会议暨CISP攻防领域注册考试“突破千人”发布会成功召开。根据CISP攻防领域考试中心的统计数字...
日期:05-09
苹果提高多国iCloud存储价格 涨幅约25%「苹果icloud中国数据将留在国内」
苹果公司已经在全球多个地区提高了iCloud存储的价格,包括英国、斯堪的纳维亚、东欧、中东和南美等地区。每个Apple ID都可以免费获得5GB的云存储空间,但用户可以升级到付费的i...
日期:06-28
同档位碾压!OPPO K11搭载索尼IMX890:进光量提升84.3%_oppok9相机是索尼传感器吗
快科技7月18日消息,OPPO今日宣布将于7月25日14:30发布新机OPPO K11。据介绍,OPPO K11采用同档位唯一碾压级硬件索尼IMX890,并且支持OIS光学防抖。其中,5000万像素大底传感器的进...
日期:07-18
看英雄联盟比赛用什么投影仪?当贝投影F3体验如何?(投影仪玩英雄联盟)
  游戏最早的雏形,其实可以追溯到原始社会的流行活动:丢石子、扔带尖的棍子,这些最早的游戏是以促进身体健康和提高生存能力为初衷的。而当时代发展科技进步后,棋牌类游...
日期:07-14
最轻214克刷新纪录:荣耀连发3款折叠屏抢占高端用户_荣耀要出折叠屏
快科技10月12日消息,荣耀今晚发布了新一代折叠屏手机荣耀Magic Vs2,重量仅229克,再次刷新大屏内折手机的轻盈新纪录。至此,荣耀已连发3款折叠屏抢占高端用户,分别是荣耀Magic V2...
日期:10-13
excel2010平滑滚动_微软宣布:Office Excel 桌面应用将支持平滑滚动,更流畅
  10 月 9 日消息 据 mspoweruser 报道,微软宣布,他们将在不久的将来为其 Excel 桌面应用带来对更平滑的滚动支持。   目前,Excel 不能平滑滚动,主要是因为 Excel 在滚动...
日期:07-17
妙健康携手百度智慧医疗,打造AI家庭医生服务新模式(百度 智慧医疗)
  2020年6月29日,妙健康与百度正式达成战略合作协议,双方将探索医疗健康服务与人工智能、物联网、大数据等先进信息技术的结合,围绕慢病管理领域开展深入合作,共同打造基...
日期:07-14
小鹏汽车投资设立智能智造研究院新公司_小鹏汽车研发中心
1月9日 消息:企查查APP显示,近日,肇庆小鹏智能智造研究院有限公司成立,法定代表人为夏珩,注册资本100万元人民币。怎么删除手机密码解锁该公司经营范围包含:电机及其控制系统研...
日期:01-09
网秦登全球最热25家移动创业公司榜单
  近日,在2011世界移动通讯展(MWC2011)举办期间,欧洲知名科技报刊《Informilo》公布了“全球最热门的25家移动创业公司”的评选结果(查看结果请点击),移动安全领域的领导者...
日期:07-26