您的位置:首页 > 互联网

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

发布时间:2024-02-26 12:51:39  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子,授权转载发布。

【新智元导读】谷歌团队推出通用视觉编码器VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。

AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。

最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。

它能够通过单一冻结模型,处理各种视频理解任务。

论文地址:https://arxiv.org/pdf/2402.13217.pdf

比如,VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。

视频-文本检索,根据文本内容,可以检索出视频中相应的内容。

再比如,描述下面视频——一个小女孩正在玩积木。

还可以进行QA问答。

- 她放在绿色积木块上方积木的是什么颜色?

-紫色。

研究人员在一个异构语料库对VideoPrism进行了预训练,包含3600万高质量视频字幕对和5.82亿个视频剪辑,并带有噪声并行文本(如ASR转录文本)。

值得一提的是,VideoPrism在33项视频理解基准测试中,刷新了30项SOTA。

通用视觉编码器VideoPrism

当前,视频基础模型(ViFM)有巨大的潜力,可以在庞大的语料库中解锁新的能力。

虽然之前的研究在一般视频理解方面取得了很大进展,但构建真正的基础视频模型仍然是一个难以实现的目标。

对此,谷歌推出了一种通用视觉编码器——VideoPrism,旨在解决广泛的视频理解任务,包括分类、本地化、检索、字幕和问答(QA)。

VideoPrism对CV数据集,以及神经科学和生态学等科学领域的CV任务进行了广泛评估。

通过使用单一冻结模型,以最小的适应度实现了最先进的性能。

另外,谷歌研究人员称,这种冻结编码器设置同时遵循先前研究,并考虑了其实际实用性,以及高计算和微调视频模型的成本。

设计架构,两阶段训练法

VideoPrism背后的设计理念如下。

预训练数据是基础模型(FM)的基础,ViFM的理想预训练数据,是世界上所有视频的代表性样本。

这个样本中,大多数视频都没有描述内容的并行文本。

然而,如果训在这样的文本,它就能提供有关视频空间的无价语义线索。

因此,谷歌的预训练策略应主要关注视频模式,同时充分利用任何可用的视频文本对。

在数据方面,谷歌研究人员通过汇集3600万高质量视频字幕对,以及5.82亿视频剪辑与噪声并行文本(如ASR转录、生成的字幕和检索到的文本)来近似建立所需的预训练语料库。

在建模方面,作者首先从所有不同质量的视频-文本对中对比学习语义视频嵌入。

随后,利用广泛的纯视频数据,对语义嵌入进行全局和标记提炼,改进了下文所述的掩码视频建模。

尽管在自然语言方面取得了成功,但由于原始视觉信号缺乏语义,掩码数据建模对于CV来说仍然具有挑战性。

现有研究通过借用间接语义(如使用CLIP引导模型或分词器,或隐含语义来应对这一挑战)或隐性推广它们(比如标记视觉patches),将高掩码率和轻量级解码器结合。

在上述想法的基础上,谷歌团队根据预训练数据采用了两阶段方法。

在第一阶段,进行对比学习,使用所有视频文本对,将视频编码器与文本编码器对齐。

安卓必定打败苹果

根据先前的研究,谷歌团队最小化批中所有视频文本对的相似性得分,进行对称交叉熵损失最小化。

国美零售黄光裕最新消息

并使用 CoCa 的图像模型初始化空间编码模块,并将WebLI纳入到预训练中。

在计算损失之前,视频编码器的特征会通过多头注意力汇集池(MAP)进行聚合。

这一阶段允许视频编码器从语言监督中学习丰富的视觉语义,由此产生的模型为第二阶段训练提供语义视频嵌入。

第二阶段,继续训练编码器,并进行了两项改进:

- 模型需要根据未掩码的输入视频patches,来预测第一阶段的视频级全局嵌入和token式嵌入

- 编码器的输出token在传给解码器之前,要进行随机洗牌,以避免学习捷径。

值得注意的是,研究人员的预训练利用了两个监督信号:视频的文本描述,以及上下文自监督,使VideoPrism能够在以外观和动作为中心的任务上表现出色。

事实上,之前的研究表明,视频字幕主要揭示外观线索,而上下文我监督有助于学习动作。

实验结果

三星 A5

接下来,研究人员在广泛的以视频为中心的理解任务上评估VideoPrism,展现其能力和通用性。

主要分为以下四类:

(1) 一般仅视频理解,包括分类和时空定位

(二) 零样本视频文本检索

(三) 零样本视频字幕和质量检查

(四) 科学领域的CV任务

分类和时空定位

表2显示了VideoGLUE上的冻结骨干的结果。

在所有数据集上,VideoPrism都大幅优于基线。此外,将VideoPrism的底层模型大小从ViT-B增加到ViT-g可以显着提高性能。

值得注意的是,没有基线方法能在所有基准测试中取得第二好的成绩,这表明以前的方法可能是针对视频理解的某些方面而开发的。

而VideoPrism在这一广泛的任务上持续改进。

这一结果表明,VideoPrism将各种视频信号整合到了一个编码器中:多种粒度的语义、外观与运动线索、时空信息以及对不同视频源(如网络视频与脚本表演)的鲁棒性。

零样本视频文本检索和分类

表3和表4分别总结了视频文本检索和视频分类的结果。

VideoPrism的性能刷新多项基准,而且在具有挑战性的数据集上,VideoPrism 与之前的技术相比取得了非常显著的进步。

基础模型VideoPrism-B 的大多数结果,实际上优于现有的更大规模模型。

此外,VideoPrism与表4中使用域内数据和额外模态(例如音频)预训练的模型相当,甚至更好。这些在零样本检索和分类任务中的改进体现了VideoPrism强大的泛化能力。

零样本视频字幕和质量检查

表5和表6分别显示了,零样本视频字幕和QA的结果。

尽管模型架构简单且适配器参数数量较少,但最新模型仍具有竞争力,除VATEX外,在冻结视觉和语言模型的方法中名列前茅。

结果表明,VideoPrism编码器能够很好地推广到视频到语言的生成任务。

科学领域的CV任务

通用ViFM在所有评估中使用共享的冻结编码器,其性能与专门用于单个任务的特定领域模型相媲美。

尤其是,VideoPrism通常表现最好,并超越了具有基本规模模型的领域专家模型。

扩展到大规模模型可以进一步提高所有数据集的性能。这些结果表明ViFM有潜力显著加速不同领域的视频分析。

消融研究

图4显示了消融结果。值得注意的是,VideoPrism在SSv2上的持续改进表明,数据管理和模型设计工作在促进视频中的运动理解方面的有效性。

尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。


返回网站首页

本文评论
iPhone车祸检测功能下周将升级「撞车检测」
iPhone 14新推出的车祸检测功能非常实用,但也带来了不少麻烦,苹果公司为了减少误报,计划将在iOS 16.4将为所有iPhone 14和iPhone 14Pro机型增加额外的崩溃检测优化,本次更新将于...
日期:03-24
小米14系列首销创纪录!雷军:已大幅提升产量 争取让大家尽早买到
快科技11月1日消息,日前,小米14系列迎来首销,售价3999元起。当贝投影仪d3x,价格2699元根据官方战报,该系列首销仅4小时,打破天猫、京东、抖音、快手”四大平台近一年所有国产手机...
日期:11-02
索尼A8H OLED电视国内首发 品牌黑科技再次升级_索尼a8h对比lgcx
  虽然当今大环境总体受疫情的影响,但是依然没有阻挡住索尼前进的步伐,在2020年索尼依然以势不可挡的趋势发布了众多新品,为高端彩电市场注入了新鲜血液。索尼春季新品一共...
日期:07-14
趣头条号X维权骑士:版权保护与内容生态的共赢_趣头条 官方
  近期,趣头条号与维权骑士正式签署合作框架协议。维权骑士邀请新锐自媒体平台趣头条号加入骑士版权联盟,共享共建联盟绿色通道,加大对原创作者权益的保护力度。未来双方将...
日期:08-21
微软 Win11/10 Edge 浏览器 IE 模式带来两个增强功能_microsoft edge ie模式
  4 月 5 日消息,据 MSPoweruser 报道,随着 IE 浏览器即将在 2022 年 6 月 15 日退役,微软公司为 Edge 浏览器中的 IE 模式又推出了两项增强功能,以提高生产力。这些改进是直...
日期:09-23
HTC月底发布VIVERSE手机:VR+元宇宙(Htc vr)
HTC已正式确认将于 28 日发布其首款元宇宙手机Viveverse。Viveverse是HTC Vive推出的开源元宇宙平台,由各种应用和游戏组成,支持智能手机、PC、平板和Vive Flow眼镜(如Vive Syn...
日期:08-01
烽火通信陈松涛:“烽火思考”加快400G商用进程
通信世界网消息(CWW)400G正接过“接力棒”,筑基算力网络,为光宽带和移动通信发展保驾护航。11月9日,400G/800G与全光网发展研讨会在北京召开,烽火通信光传输网产品线总经理陈松涛...
日期:11-16
“刷视频赚钱”套路为何屡打不绝「app刷视频赚钱套路」
;  李英锋  “边刷视频边赚钱”“轻松日赚百元”……近期,在部分短视频平台、社交媒体平台上经常能看见这样的广告语,推广一些号称可以通过刷视频赚钱的App。刷刷视频就能...
日期:10-01
打造“家电智造”标杆:中国联通、美的联合中兴通讯启动5G/5G-A确定性工业网络联合创新项目
通信世界网消息(CWW)2023年初,工信部部长金壮龙接受媒体采访时表示,将通过打造一批5G全连接工厂,建设一批全球领先的智能工厂,促进我国数字经济发展。所谓5G全连接工厂是指充分利...
日期:06-02
赞!XBOX高层炮轰苹果新政策_apple xbox
在Spotify CEO Daniel Ek批评苹果在欧盟推出的新付费结构后,Xbox副总裁Sarah Bond也表示赞同。她认为苹果的这一举措是错误的。"我们相信建设性的对话能够推动变革和进步,实现...
日期:01-31
百度“互联网创业者俱乐部”一周年又添新举措_百度的创业团队和机制
  8月22日,“互联网创业者俱乐部”一周年庆典在北京拉开帷幕。作为由百度联盟发起,旨在帮助广大中小网站和互联网创业团队成长壮大的国内最大创业平台。   百度副总裁向...
日期:07-22
2023年,“平替”成为主流_2002r平替
声明:本文来自于微信公众号伯虎财经(bohuFN),作者:灵灵,授权转载发布。2023年,随着经济环境的变化,“一分钱掰成两半花”的情况越来越普遍。在满足自身对生活品质追求的同时,尽可能...
日期:12-27
2800万战神「《战神》售出五百万份」
PlayStation全球工作室负责人Herman Hulst表示,《战神:诸神黄昏》首周卖出510万份,成为索尼第一方销售速度最快的PS游戏。这意味着《诸神黄昏》击败《最后生还者2》成为销售势...
日期:11-26
字节跳动企图反向掠夺xigua.com域名被驳回
  近日,我国知名域名争议律师孙含会与域名行业大佬王培陛(被行业称为“域名队长”)强强合作,成功阻止字节跳动及其关联公司企图通过域名投诉反向掠夺域名的行为。孙含会律...
日期:11-26
ROG手机2代「rog手机2」
近年来,随着游戏行业不断发展壮大,游戏手机市场也出现了越来越多的玩家。在这个市场中,最有名的当属ROG手机系列。ROG手机以其出众的游戏性能,深受游戏玩家的喜爱。新一代的ROG...
日期:06-03
喜茶不加盟为什么开这么多店「喜茶为什么放开加盟」
声明:本文来自于微信公众号 窄播(ID:exact-interaction),作者:肖超,授权转载发布。如果是过去是需要以麦当劳、肯德基等举例,说明加盟不一定就是件割韭菜的坏事;那么到今天,留给当...
日期:11-17
视频号推广渠道「达人共创、扩圈传播:传统品牌如何在短视频寻找新增量?」
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:卡思数据,授权转载发布。一条名叫《古代包办婚姻有多难》的短视频在抖音上火了。这条视频长达五分钟、采用的是单纯的口...
日期:10-02
微软发布新型AI训练法“思想算法” 使AI更具人类思维能力
要点:2021雷军年度演讲回放微软与弗吉尼亚理工大学合作,提出“思维算法”新训练方法,目的是使大语言模型如ChatGPT在推理上更高效、更具人类思维逻辑。“思维算法”通过组织模...
日期:09-01
4部手机200多个壳,这届年轻人为何对换“壳”上瘾?_手机店换手机壳多少钱
中新经纬9月16日电 (李晓萱) 每年,手机新品如雨后春笋,各类“X”“Pro”“Mate”型号让人眼花缭乱,更新换代速度让人措手不及,不少网友调侃换手机也需要“冷静期”。这时,不少年...
日期:09-16
AI前哨|与中美抢购芯片,揭秘沙特、阿联酋的人工智能野心「2016年沙特阿拉伯赋予机器人」
凤凰网科技讯《AI前哨》北京时间8月15日消息,作为海湾地区的强国,沙特和阿联酋加入了全球人工智能(AI)军备竞赛,正在采购数千颗对构建AI软件至关重要的高性能英伟达芯片。AI芯片...
日期:08-15