您的位置:首页 > 互联网

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝_宝格丽网红新品

发布时间:2024-04-07 12:39:04  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。

几天前,OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。

AI视频,已然成为多模态LLM发展的大趋势。

然而,除了视频生成,让LLM对复杂视频进行理解,也至关重要。

最近,来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video——专为视频理解而设计的多模态大模型。

论文地址:https://arxiv.org/pdf/2404.03413.pdf

值得一提的是,MiniGPT4-Video能够同时处理时态视觉数据和文本数据,因此善于理解视频的复杂性。

比如,上传一个宝格丽的首饰宣传视频。

MiniGPT4-Video能够为其配出标题,宣传语。

再比如,使用虚幻引擎制作的视频,新模型可以对其进行理解。

能看出这个视频使用了后期处理和特效,而不是实际拍摄出来的。

甚至,看过一簇簇花盛开的视频,MiniGPT4-video即兴作出了超美的抒情诗。

基于MiniGPT-v2,MiniGPT4-video将其能力扩展到处理帧序列,以便理解视频。

MiniGPT4-video不仅考虑了视觉内容,还纳入了文本对话,使该模型能够有效地回答涉及视觉和文本内容的查询。

实验结果显示,新方法在MSVD、MSRVTT、TGIF和TVQA基准上分别提高了4.22%、1.13%、20.82%和13.1%。

接下来,一起看看MiniGPT4-video还能做什么?

更多演示

上传一个宝宝戴眼镜看书的视频后,MiniGPT4-video可以理解搞笑点在哪里。

宝格丽more than a wish

提取视频中核心要义,也不在话下。

你还可以让MiniGPT4-Video生成一个创意性的广告。

解说视频也是超级厉害。

2020全球电脑市场份额

MiniGPT4-Video能能够拥有如此强大视频解读能力,究竟是怎么做到的?

技术介绍

MiniGPT-v2通过将视觉特征转化为LLM空间,从而实现了对单幅图像的理解。

他的结构如下图2所示,由于LLM上下文窗口的限制,每段视频都要进行帧子采样,帧数(N)由LLM的上下文窗口决定。

随后,使用预先训练好的模型EVA-CLIP,将视觉帧与文本描述对齐,然后使用线性层将其映射到大型语言模型空间。

与MiniGPT-v2类似,研究人员将每幅图像中每四个相邻的视觉token浓缩为一个token,从而将每幅图像的token数减少了75%,从256个减少到64个。

在训练过程中,研究人员会随数据集提供字幕,但在推理过程中或视频没有字幕时,研究人员会利用语音到文本模型(如 whisper)生成视频字幕。

帧字幕使用LLM tokenizer进行token化,将每个采样帧的视觉token和文本token进行连接。指令token被附加到输入序列的末尾,然后模型输出问题的答案。

训练流程

大规模图像-文本对预训练

在第一阶段,研究人员训练了一个线性层。

它将由视觉编码器编码的视觉特征(例如 EVACLIP )投影到LLM的文本空间中,并采用captioning loss。

研究人员利用了一个结合的图像描述数据集,包括来自LAION、概念性标题(Conceptual Captions)和SBU的图像,以将视觉特征与LLM的输入空间对齐。

大规模视频-文本对预训练

在第二阶段,研究人员使模型通过输入多帧来理解视频。

具体来说,研究人员从每个视频中抽取最多N帧。在此阶段,研究人员使用以下模板中的预定义提示:

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

抽取的帧数取决于每个语言模型的上下文窗口,特别是对于Llama2,上下文窗口是4096个tokens,而Mistral的上下文窗口是8192个tokens。

在研究人员的方法中,他们用了64个tokens表示每个图像。

因此,对于Llama2,研究人员指定N=45帧,相当于2880个tokens用于视觉内容表示。

此外,研究人员为字幕分配1000个tokens,而剩余的tokens用于模型输出。

类似地,在Mistral的情况下,上下文窗口加倍,N相应地加倍到N=90帧,以确保与扩展的上下文窗口兼容。

在此提示中,每个<FrameFeature>都由视觉主干编码的采样视频帧替换。

<Subtitle text>代表相应帧的字幕,<Instruction>代表研究人员预定义的指令集中随机采样的指令,包含多种形式的指令,如简要描述这些视频。

研究人员使用结合了CMD和WebVid的视频描述数据进行大规模视频描述训练。

视频问题解答指令微调

在这一阶段,研究人员采用与第二阶段相同的训练策略,但重点是利用高质量的视频答题数据集进行教学微调。

这一微调阶段有助于提高模型解释输入视频和生成精确回复的能力。

宝格丽title

解释输入视频并生成相应的问题。模板与第二阶段模板与第二阶段的模板相同,但将 <Instruction> 替换为Video-ChatGPT数据集中提到的一般问题。

实现细节

在三个训练阶段中,研究人员保持批大小为4,并使用AdamW优化器结合余弦学习率调度器,将学习率设置为1e4。

研究人员的视觉主干是EVA-CLIP,进行了权重冻结。

值得注意的是,研究人员训练了线性投影层,并使用LoRA对语言模型进行了高效微调。

具体来说,研究人员微调了Wq和Wv组件,排名(r)为64,LoRA-alpha值为16。整个模型以一致的224×224像素的图像分辨率进行训练,确保了所有阶段的统一性。

多项基准,刷新SOTA

为了对最新提出的架构进行全面评估,研究人员评估了三种基准类型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。

表1所示的VideoChatGPT基准测试中,最新模型在没有字幕的情况下与之前的方法不相上下。

当研究人员将字幕作为输入时,模型在所有五个维度上都取得了SOTA。

这验证了研究人员的模型可以利用字幕信息,来提高视频的理解。

在另外两个基准测试评估中,MiniGPT4-Video明显优于最新的SOTA方法。

它在MSVD、MSRVTT、TGIF和TVQA基准上分别实现了4.22%、1.13%、20.82%和13.1%的显着改进。

带字幕和不带字幕的结果进一步表明,将字幕信息与视觉提示集成可显著提高性能,TVQA的准确率从33.9%提高到54.21%。

定性结果

更多的定性结果,如下图所示。

最后,研究人员还将MiniGPT4-video与VideoChatGPT相比较。

可以看出,针对一个问题,最新方法的回复更加全面。

总之,MiniGPT4-video有效地融合了视频领域内的视觉和对话理解,为视频问答提供了一个 引人注目的解决方案。

不过,缺陷在于上下文窗口限制。

具体来说,当前版本要求Llama2视频长度为45帧(不到一分半),Mistral版本的视频长度为90帧(不到三分钟)。

因此,下一步研究将模型能力扩展到处理更长视频的能力。

参考资料:

https://arxiv.org/pdf/2404.03413.pdf


返回网站首页

本文评论
趣头条 总部_趣头条X新榜大会:签约计划首度披露 ,共享内容创业快车道
  “日分成200万,作者月保底收入最高3万……”,自去年11月底发布“快车道”激励计划之后,在自媒体内容创作者领域,趣头条一直保持着高关注度和曝光率。   1月8日,趣头条联合...
日期:08-04
AI智慧将在10年内超人类,孙正义重磅预测!智力差异类似人和猴子
每经编辑:卢祥勇当地时间10月4日,软银集团创始人兼CEO孙正义表示,他相信通用人工智能(AGI)将在10年内成为现实,AGI即“几乎在所有领域都超越人类智慧的AI”。当天,孙正义在软银世...
日期:10-07
苹果要求供应商将部分AirPods和Beats的生产转移到印度「苹果airpods生产工厂」
据日经新闻周三报道,苹果公司正在要求其供应商首次将一些AirPods和Beats耳机的生产转移到印度,这可能是新德里在推动本地制造业方面的又一次胜利。报道援引消息人士的话说,苹果...
日期:10-08
美团公司最新动作「独家丨对抗抖音,美团将完成新一轮组织调整」
“抖音、美团,双方渐浓的火药味。”作者 | 王超编辑 | 刘伟2018年全球智能手机出货量美团新一轮的组织调整,在本周即将结束。相比以往,此次调整最值得关注的是,美团到店的受重视...
日期:04-21
10月起,1688平台升级新灯塔考核体系「1688新灯塔考核指标」
9月28日 消息:1688发布公告称,1688新灯塔考核体系自上线以来得到了商家的大力支持,随着市场环境及平台发展的变化,本次将对原有考核指标及评定标准做整体升级。诚信通商家将在2...
日期:10-06
中国空间站将再添新房间:梦天实验舱已运抵发射场「中国空间站天和核心舱成功发射」
IT之家8月9日消息,据央视新闻今日报道,梦天实验舱已完成出厂前所有研制工作,于近日运抵文昌航天发射场。后续,梦天实验舱将按计划开展发射场区各项总装和测试工作。这意味着中国...
日期:09-12
黄铁军:对于强人工智能 我们要剥离以人类为中心的想法「黄铁军个人简介」
凤凰网科技讯 6月16日消息,凤凰网科技《浪潮》对话智源研究院黄铁军,黄院长表示,一个超级的人工智能比人类要强,要主导这个世界”的这种想象其实有很多值得讨论的地方,可能性也很...
日期:06-17
土耳其上空出现碟形透镜云:恍若UFO、相当震撼
大自然真的很神奇,有时候出现的天象,足能够让人惊呼P”的吧。近日,在土耳其城市布尔萨上空出现碟形透镜云,从实拍视频看,该碟形透镜云整体样式相当独特,有网友形容像是拳击手套”,...
日期:01-22
DXOMARK:华为Mate 50 Pro影像总分排全球
10月31日 消息:今日,测评机构DXOMARK公布了华为Mate50Pro影像总分——149分,成为DXOMARK全球影像排名第一。DXOMARK称,所有的测试都是在手机默认设置下完成的,因此本次测试在华...
日期:11-05
男子骑共享单车忘付费1元欠6年 网友:ofo欠我199几年了_共享单车欠了一块钱
快科技12月10日消息,据国内媒体报道,近日,海南三亚,一男子骑共享单车忘付费1元骑行费6年未还,引网友关注热议。iphone14或完成卫星通信测试据当事人刘先生介绍,当时在外旅游时骑的...
日期:12-10
数量最多!海尔5大案例入选2023年度工信部质量提升典型案例名单_海尔质量管理成功案例
  近日,工业和信息化部发布《 2023 年度工业和信息化质量提升典型案例名单》,从质量管理能力、质量技术创新应用、可靠性提升三个方面,遴选了具有较强代表性、示范性、创新性...
日期:12-06
大咖请回答2023 | 中天互联时宗胜:从量的积累到质的飞跃,工业互联网步入新阶段
通信世界网消息(CWW)2023年即将落下帷幕,回眸2023年,ICT产业稳步发展,运营商与产业链上下游企业携手并进,5G行业应用遍地开花、算力网络走向纵深、大模型百花齐放、技术创新加速IC...
日期:12-22
中国“送餐机器人+无接触”新模式成智能抗疫范本_疫情无人配送机器人
  《西班牙人报》网站近日发表了亚历克斯·布兰科的题为《中国为遏制新冠肺炎疫情所使用的技术》的文章,称经过近4个月的不懈抗疫,中国人的生活似乎正逐渐恢复正常。但是,他...
日期:07-13
浙江一公司上4休3收到上千份简历 目前仅有三名员工_浙江企业做三休四
近日,有一家位于浙江温州的文化创意公司引起了网友的关注,因为该公司在招聘广告中宣称,只要员工保证工作质量和缴纳社保,就可以享受每周只上班四天的福利。网售处方药是否放开@...
日期:05-23
20年来最惨烈下滑 PC卖不动 厂商哀叹回不到过去_pc市场还有希望吗
快科技5月16日消息,过去两年由于远程办公、网课的需求,PC销量暴涨,创造了10年来最大复苏,然而好景不长,去年下半年就开始暴跌,还债的日子到了。天猫双十一笔记本销量排行IDC公布的...
日期:05-17
腾讯云小微虚拟人上线,让AI走进生活(小微ai人工智能)
  近日,用户只要将腾讯叮当智能屏更新到最新版本,就会发现,新增的腾讯叮当问答室里,出现了一个二次元动漫小姐姐,以虚拟真人的形象与大家互动玩耍。    消费级AI市场的定...
日期:05-10
特斯拉动真格:拿重物压方向盘欺骗系统 “封号”且不退款
前几日,马斯克宣布,特斯拉完全自动驾驶FSD Beta,现在已可在北美所有车辆上进行内测,前提是已购买FSD的用户。苹果在华销量大降另外,特斯拉规定,在使用FSD过程中,驾驶员必须要把手放...
日期:12-01
华为鸿蒙harmonyos 2.0手机开发者beta版「华为鸿蒙 HarmonyOS 3 正式版将于 10 月中下旬推送」
10 月 9 日讯:华为宣布鸿蒙 HarmonyOS 3 正式版首批将于 10 月中下旬推送。索尼旗下游戏工作室有几个马斯克的星链太空互联网iphone 14系列爆料信息大汇总...
日期:10-10
趋势2024 | 中国联通唐雄燕谈算力网络发展的四大趋势
通信世界网消息(CWW)数字经济时代,算力是全社会数字化、智能化转型的重要基石。2024年,以AIGC为代表的人工智能技术将进一步激发算力需求,算力网络、智算中心、超算中心将迎来怎...
日期:01-11
apple watch series7设计会大变吗?「消息称苹果 Apple Watch Series 8 标准版不会重新设计」
IT之家 8 月 5 日消息,苹果 Apple Watch Series 8 预计将在 9 月发布,根据最新的爆料,新的标准版将采用与 Apple Watch Series 7 相同的设计。根据爆料者 @ShrimpApplePro 的说...
日期:09-16