您的位置:首页 > 互联网

李飞飞谷歌破局之作!用Transformer生成逼真视频,下一个Pika来了?

发布时间:2023-12-13 02:12:24  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】今天,李飞飞携斯坦福联袂谷歌,用Transformer生成了逼真视频,效果媲美Gen-2比肩Pika。2023年俨然已成AI视频元年!

视频大数据时代,真的来了!

刚刚,李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。

这是一个在共享潜在空间中训练图像和视频生成的,基于Transformer的扩散模型。

拼多多何以能在寡头垄断的红海中突围

论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

英伟达高级科学家Jim Fan转发评论道:2022年是影像之年,2023是声波之年,而2024,是视频之年!

首先,研究人员使用因果编码器在共享潜在空间中压缩图像和视频。

其次,为了提高记忆和训练效率,研究人员使用基于窗口注意的变压器架构来进行潜在空间中的联合空间和时间生成建模。

研究人员的模型可以根据自然语言提示生成逼真的、时间一致的运动:

A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在时代广场上优雅的滑冰,慢动作

Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/将巧克力酱倒在香草冰淇淋甜筒上,工作室灯光

An stronaust riding a horse/一名宇航员骑着马

A squirrel eating a burger/一只松鼠在吃汉堡

A panda taking a selfie/一只正在自拍的熊猫

An elephant wearing a birthday hat walking on the beach/一头戴着生日帽的大象在海滩上行走

Sea lion admiring nature, river, waterfull, sun, forest/海狮欣赏自然,河流,瀑布,阳光,森林

Pouring latte art into a silver cup with a golden spoon next to it/在银杯中进行拿铁拉花,旁边放着金勺子

Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/两个骑士用光剑决斗,电影动作镜头,极其慢动作

A swarm of bees flying around their hive/一群蜜蜂在他们的蜂巢周围飞翔

这个结构还可以用图片生成视频:

A giant dragon sitting in a snow covered landscape, breathing fire/一条巨大的龙盘踞在冰雪覆盖的大地上,喷吐着火焰

A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一只可爱的熊猫在天空中滑滑板,越过雪山,充满梦幻和异想天开的气氛

An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球,大规模爆炸,慢动作

以及,生成一致性很高的3D相机运动的视频。

Cameraturns around a cute bunny, studio lighting,360rotation/相机围绕一只可爱的兔子旋转,工作室灯光,360度旋转

Camera turns around utah teapot,studio lighting,360rotation/相机围绕茶壶旋转,工作室灯光,360度旋转

Camera turns around a burger on a plate,studio lighting,360rotation/相机围绕盘子中的汉堡旋转,工作室灯光,360度旋转

网友们惊叹道,这些天好像已经人手一个LLM或者图像生成器。

今年简直是AI发展的煽动性的一年。

两个关键决策,组成三模型级联

W.A.L.T的方法有两个关键决策。

首先,研究者使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。

其次,为了提高记忆和训练效率,研究者使用了为空间和时空联合生成建模量身定制的窗口注意力架构。

通过这两个关键决策,团队在已建立的视频(UCF-101和 Kinetics-600)和图像(ImageNet)生成基准测试上实现了SOTA,而无需使用无分类器指导。

最后,团队还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒8帧的速度,生成512x896分辨率的视频。

W.A.L.T的关键,是将图像和视频编码到一个共享的潜在空间中。

Transformer主干通过具有两层窗口限制注意力的块来处理这些潜在空间——空间层捕捉图像和视频中的空间关系,而时空层模拟视频中的时间动态,并通过身份注意力掩码传递图像。

而文本调节,是通过空间交叉注意完成的。

W.A.L.T解决视频生成建模难题

Transformer是高度可扩展和可并行的神经网络架构,是目前最当红的构架。

这种理想的特性也让研究界越来越青睐Transformer,而不是语言 、音频、语音、视觉、机器人技术等不同领域的特定领域架构。

这种统一的趋势,使研究人员能够共享不同传统领域的进步,这样就造就了有利于Transformer的模型设计创新和改进的良性循环。

然而,有一个例外,就是视频的生成建模。

扩散模型已成为图像和视频生成建模的领先范例。然而,由一系列卷积层和自注意力层组成的U-Net架构一直是所有视频扩散方法的主流。

这种偏好源于这样一个事实:Transformer中完全注意力机制的记忆需求,与输入序列的长度呈二次方缩放。

在处理视频等高维信号时,这种缩放会导致成本过高。

潜在扩散模型可以通过在从自动编码器派生的低维潜在空间中运行,来降低计算要求。

在这种情况下,一个关键的设计选择,就是所使用的潜在空间的类型:空间压缩 (每帧潜在) 与时空压缩。

空间压缩通常是首选,因为它可以利用预训练的图像自动编码器和LDM,它们在大型成对图像文本数据集上进行训练。

然而,这种选择增加了网络复杂性,并限制了Transformer作为骨干网的使用,尤其是由于内存限制而生成高分辨率视频时。

另一方面,虽然时空压缩可以缓解这些问题,但它排除了配对图像文本数据集的使用,后者比视频数据集更大、更多样化。

因此,研究者提出了窗口注意力潜在Transformer (W.A.L.T) :一种基于Transformer的潜在视频扩散模型 (LVDM) 方法。

该方法由两个阶段组成。

首先,自动编码器将视频和图像映射到统一的低维潜在空间中。这种设计能够在图像和视频数据集上联合训练单个生成模型,并显著减少生成高分辨率视频的计算负担。

随后,研究者提出了一种用于潜在视频扩散建模的Transformer块的新设计,由在非重叠、窗口限制的空间和时空注意力之间交替的自注意力层组成。

这种设计有两个主要好处——

首先,使用局部窗口注意力,可以显著降低计算需求。

其次,它有利于联合训练,其中空间层独立处理图像和视频帧,而时空层致力于对视频中的时间关系进行建模。

虽然概念上很简单,但团队的方法让Transformer在公共基准上潜在视频传播中表现出了卓越的质量和参数效率,这是第一个经验证据。

具体来说,在类条件视频生成 (UCF-101) 、帧预测 (Kinetics-600) 和类条件图像生成 (ImageNet)上, 不使用无分类指导,就取得了SOTA。

最后,为了证明这种方法的可扩展性和效率,研究者还生成了逼真的文本到视频生成效果。

他们训练了由一个基本潜在视频扩散模型和两个视频超分辨率扩散模型组成的级联模型,以每秒8帧的速度生成512X896分辨率的视频,并且在UCF-101基准测试中,取得了SOTA的zero-shot FVC分数。

学习视觉符号

视频生成建模中的一个关键设计决策,就是潜在空间表征的选择。

理想情况下,需要一个共享且统一的压缩视觉表征,可用于图像和视频的生成建模。

统一的表征很重要,这是因为由于标记视频数据(例如文本视频对)的稀缺,联合的图像-视频学习更可取。

为了实现视频和静态图像的统一表征,第一帧始终独立于视频的其余部分进行编码。

为了将这个设计实例化,研究者使用了MAGVIT-v2分词器的因果3DCNN编码器-解码器。

通常,编码器-解码器由常规D卷积层组成,它们无法独立处理第一帧。

而因果3D卷积层解决了这个问题,因为卷积核仅对过去的

帧进行操作。

这就确保了每个帧的输出仅受前面帧的影响,从而使模型能够独立标记第一帧。

实验

视频生成

研究人员考虑了两个标准视频基准,即类别条件生成的UCF-101和带有5个条件帧的视频预测Kinetics-600。

研究人员使用FVD 作为主要评估指标。在这两个数据集上,W.A.L.T 显著优于之前的所有工作(下表1)。

与之前的视频扩散模型相比,研究人员在模型参数更少的情况下实现了最先进的性能,并且需要50个DDIM推理步骤。

图像生成

为了验证W.A.L.T在图像领域的建模能力,研究人员训练了一个W.A.L.T版本,用于标准的ImageNet类别条件设置。

在评估中,研究人员遵循ADM并报告在50K样本上用50个DDIM步骤生成的FID和Inception分数。

研究人员将W.A.L.T与256×256分辨率的最先进图像生成方法进行比较(下表2)。研究人员的模型在不需要专门的调度、卷积归纳偏见、改进的扩散损失和无分类器指导的情况下优于之前的工作。尽管VDM++的FID分数略有提高,但该模型的参数明显更多(2B)。

卫星互联网通信

消融实验

在使用ViT -based模型的各种计算机视觉任务中,已经证明较小的补丁大小p可以始终提高性能。同样,研究人员的研究结果也表明,减小补丁大小可以提高性能(下表3a)。

窗口注意力

研究人员比较了三种不同的STW窗口配置与全自注意(表3b)。研究人员发现,局部自注意力可以在速度上显著更快(高达2倍)并且减少加速器内存的需求,同时达到有竞争力(或更好)的性能。

文生视频

研究者在文本-图像和文本-视频对上,联合训练了文本到视频的W.A.L.T。

使用的是来自公共互联网和内部来源的约970M文本-图像对,和约89M文本-视频对的数据集。

定性评估

W.A.L.T根据自然语言提示生成的示例视频,分辨率为512*896,持续时间为3.6秒,每秒8帧。

W.A.L.T模型能够生成与文本提示一致、时间一致的逼真视频。

研究人员在以1或2个潜在帧为条件的帧预测任务上,联合训练了模型。

因此,模型可用于图像动画(图像到视频)和生成具有连贯镜头运动的较长视频。

定量评价

科学地评估文本条件视频生成系统仍然是一个重大挑战,部分原因是缺乏标准化的训练数据集和基准。

到目前为止,研究人员的实验和分析主要集中在标准学术基准上,这些基准使用相同的训练数据来确保受控和公平的比较。

尽管如此,为了与之前的文本到视频工作进行比较,研究人员还在表5中的零样本评估协议中报告了 UCF-101数据集的结果。

研究人员框架的主要优势是它能够同时在图像和视频数据集上进行训练。

在上表5中,研究人员消除了这种联合训练方法的影响。

具体来说,研究人员使用第5.2节中指定的默认设置训练了两个版本的W.A.L.T-L (每个版本有419M 参数)模型。

研究人员发现联合培训可以使这两个指标都有显著改善。

参考资料:

https://walt-video-diffusion.github.io/


返回网站首页

本文评论
苹果浏览器网站警告_Safari浏览器欺诈网站警告功能引发用户隐私担忧
  有用户发现,在苹果的Safari的隐私条款中有一个特别的条款。叫做 Fraudulent Webstie Warning ,欺诈网站警告。内容原文是这样描述的,“Before visiting a website, Safari...
日期:12-04
官方发布盲盒经营新规获网友点赞:未满8周岁未成年人不给买_盲盒禁止销售
近两年,盲盒文化”火爆出圈,由于盲盒产品的不确定性,激发了很多年轻人购买欲望,甚至盲盒文化”已经蔓延到了小学,不少商家还推出了各式各样的盲盒文具等等。与此同时,盲盒经营过程...
日期:06-16
人力资源管理系统品牌「HR人力资源系统品牌厂商有哪些」
人力资源管理在目前企业中分化加大,如外企、国企等不缺人才的涌入,而民营中小企业人才缺口却非常庞大,这也是人力资源管理近些年被重视的主因!目前市面上HR人力资源系统、人事管...
日期:04-17
瑞幸回应喝茅台联名咖啡能否开车 若开车不建议饮用_瑞幸咖啡联动
贵州茅台酒和瑞幸咖啡联合推出了一款新的咖啡产品——“茅台瑞幸酱香拿铁”,于9月4日正式在市场上销售。瑞幸官方小程序客服表示:酱香拿铁采用了白酒风味的浓奶,添加了53度的...
日期:09-04
中国移动通信联合会元宇宙产业委员会「中国移动研究院黄宇红:元宇宙技术体系与关键能力探索」
10月19日至22日,2023世界VR产业大会召开。本届大会的主题是“VR让世界更精彩 - 虚实融合 智兴百业”。此次大会中国移动承办了元宇宙主题论坛等重要活动,并展出了一批元宇宙领...
日期:10-27
韩国网速快吗_韩国拟明年将家庭网速提高到1Gbps
  虽然已经拥有全球最快的网速,但韩国政府并不满足,他们还计划到2012年底为该国所有家庭提供速度达到1Gbps的超高速互联网。   尽管韩国当前的网速已经令人称奇,但1Gbps却...
日期:07-26
motorola razr折叠屏手机_三星下代折叠屏准备模仿 moto razr的魔力到底在哪儿?
  2019年智能手机行业最大的科技创新,非折叠屏设计的横空出世无疑了。在已经发布的折叠屏手机中,moto razr的设计可谓独树一帜,它延续了了razr经典的设计语言,并加入了创新的...
日期:12-02
歇了!印度月船三号着陆器和月球车均未唤醒!印专家:或已冻坏
印度月船三号探测器是今年唯一成功实现软着陆的月球探测器,其“维克拉姆”着陆器在靠近月球南极的地方软着陆成功,而且还成功释放了“普拉吉安”月球车。之后这辆月球车在月表...
日期:09-25
数字化提升老年人居住温度,山东枣庄首个数字化养老平台落地_居家养老数字化
通信世界网消息(CWW) 在山东枣庄市,一种全新的居民养老服务模式正在上演。年过七旬的张阿姨是枣庄薛城区的一位独居老人。今年5月,数字化康养平台上线试运营后,张阿姨成为了第一...
日期:11-15
海信系电视2022年前10月稳居中国第一_2017年海信电视
从欧美到日韩,从日韩到中国,世界家电产业正在走进属于中国企业的时代。奥维睿沃(AVCRevo)发布 2022 年1- 10 月全球电视品牌监测数据,海信电视1- 10 月全球出货量达 1960 万台,...
日期:11-30
李雪琴新发型「李雪琴没能笑着走出理发店 网友:这不就是在演我吗?」
继徐志胜给李雪琴画腮红妆之后,李雪琴再次因造型问题成为热门话题,这次要归咎于一位理发师。在理发店中,李雪琴的表情从笑转到哭,可见她对理发结果的不满。新荣耀赵明这位发型师...
日期:11-27
苹果发布iPhone 15系列,升级到“灵动岛”设计「灵动life」
财联社9月13日电,苹果宣布推出iPhone 15系列手机;iPhone 15系列手机升级到“灵动岛”设计;iPhone 15系列手机配备超级视网膜XDR显示屏,采用OLED技术。iPhone 15的屏幕尺寸为6.1...
日期:09-13
女子早高峰打车误机起诉司机和平台 索赔千元引热议:结果舒服 诉讼被驳回
乘网约车前往机场,却因迟到未赶上已购买的航班,能否就误机损失向网约车司机及平台主张赔偿?近日,北京市通州区人民法院审结一起出租汽车运输合同纠纷案件,认定出租司机及出租车公...
日期:10-10
游戏笔记本电脑哪款好「游戏型笔记本」
随着游戏行业的不断壮大,越来越多的人开始投入到游戏中。而笔记本电脑作为一种便携式的游戏设备,越来越受到游戏玩家的欢迎。其中,就是一种专门为游戏玩家设计的笔记本电脑。一...
日期:05-31
抖音新增《【供应链管理平台】国内供应商入驻规则》「抖音供货商对接平台」
10月8日 消息:10月6日,抖音发布关于新增《【供应链管理平台】国内供应商入驻规则》的意见征集通知,意见征集期为2022年10月6日—2022年10月13日。目前,供销平台仅向食品、生鲜...
日期:10-11
中国生物科技企业“回流”纳斯达克「中国上市生物科技企业」
图片来源@视觉中国文 | 氨基观察一直以来,美股都是中国生物科技企业重要的融资场所。目前,共有超过10家中国生物科技企业在美股上市,既包括百济神州、再鼎医药等门面,也包括天境...
日期:02-07
携程:元旦跨境机票预订量同比增长145%_「五一机票预订量已超2019年同期」
1月2日消息,携程发布2023元旦假期总结报告。报告显示,元旦跨境机票预订量同比增长145%,春运跨境游热度则更高,预订量同比增长超过260%。乘联会2019年汽车销量报告显示,相较2022年...
日期:01-02
2023-年 1-3 月中国占世界汽车份额 30% 乘联会崔东树_中国汽车总量位居世界
5 月 1 日消息,全国乘用车市场信息联席会秘书长崔东树公众号发文,2023 年 3 月的世界汽车销量达到 807 万台,同比增 11%;1-3 月世界汽车销量达到 2038 万台,同比增长 4%。2023 年...
日期:09-30
讯飞发布星火认知大模型及四大行业应用成果
5月9日,讯飞发布星火认知大模型,同步发布了汽车、教育、办公、数字员工等行业应用成果。nothing iphone发布会讯飞星火认知大模型将布局“1+N”战略体系,“1”是通用认知智能大...
日期:05-09
20 Classic预热 美丽的白、优雅的灰、灵动的绿 魅族
来源:中关村在线炉石传说竞技场在哪任天堂switch2019年销量do not go gentle into the night苹果发布了革命性的vision pro魅族科技今日发布预热微博,宣布将于明日推出魅族 20...
日期:10-18