您的位置:首页 > 互联网

人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型

发布时间:2023-08-14 18:41:31  来源:互联网     背景:


新智元报道

编辑:好困

【新智元导读】近期以ChatGPT为代表的一大批大语言模型(LLM)的大火,将AIGC领域推向了一个热潮,也让更多的用户感受到了AIGC技术对于工作效率上的提升。除了围绕着文本生成的大语言模型之外,AIGC在图像生成上也大放异彩。

自从Stable Diffusion和Midj ourney爆火之后,人们见识到了人工智能技术在图片生成领域的强大实力。

而Stable Diffusion的开源,又进一步促进了定制化生成模型社区的建立,使得图片生成得到了长足的发展。

然而,在更复杂、表达内容更丰富的视频生成领域,却缺乏一个有能力生成高质量视频内容的模型,对于下游不同类型的视频例如电影和短视频的创作也更是「天方夜谭」。

为了打破这一窘境,微软亚洲研究院(MSRA)联合多所高校在视频生成领域提出了一系列工作,涵盖基础生成模型和实现下游视频生成任务的应用模型。

其中,有两篇工作已经被ACM Multimedia 2023接收。

基础模型

首先,北大和MSRA组成的联合团队针对将图片生成模型拓展至视频生成这一问题展开了细致的研究,提出了视频生成基础模型 VideoFactory。


作者列表:汪文靖,杨欢,拓子曦,何汇国,朱俊臣,傅建龙,刘家瑛

论文地址:https://arxiv.org/abs/2305.10874


1. 背景和动机

相较于图像生成,视频生成更为困难,其既包含空间域的单帧画面建模,也包含时间域的跨帧运动建模。

然而,相较于大规模高质量图像数据,现有视频数据集的质量和规模均存在严重缺陷。

受限于数据集,从零构建高质量视频生成模型十分困难,因此大部分工作采用了将预训练的图像生成模型拓展至视频生成的方案,更加便利高效。

在此背景下,如何将时序信息有效融入预训练的图像生成模型成为了研究的重点。

现有工作通常将独立的一维卷积和注意力模块分散地添加到视频生成模型中,这会导致时空信息的交互不足。


同时,当前可用的视频数据集质量也不令人满意,从而导致现有工作的生成质量受限。

其中具有代表性的WebVid-10M数据集分辨率不足(360P),且画面含明显水印。

2. 方法和贡献

2.1 基于交换式时空交叉注意力机制的模型设计


传统的时空交互模块设计如图(a)-(c)所示,这些架构独立地处理每个帧上的空域操作,而时域操作考虑每个空间位置的多个帧,这种方式忽略了时空信息的重要交互。

区别于(a)-(c)中的自注意力机制(self-attention),文章作者提出在空域和时域模块之间引入交叉注意力机制:时域和空域特征会交替(swapped)地作为注意力机制中的Query和Key,以此充分将两者的信息进行融合和交互。为减少计算开销,进一步采用了3D窗口化的计算模式(3DW-MCA)。

这种设计鼓励了更多的时空信息交互,强化了时空域特征,完整的网络结构如下图所示。


实验结果表明,交替交叉注意力机制极大地提升了网络对时空信息的建模能力,同时3D窗口的注意力优化将计算开销(包括运行时间和显存消耗)显著降低,并进一步提升了网络的生成性能。


2.2 首个超大规模的高质量视频生成数据集

丰富的文本-视频数据对是训练开放域文本到视频生成模型的先决条件。

然而,现有的文本视频数据集在规模或质量上总是受到限制,影响了高质量视频生成模型的构建。

文章作者详细分析了现有数据集的规模和质量,并提出了业内首个同时满足:高画质、大规模、强标注的文本视频对数据集HD-VG-130M。


该工作首先根据HD-VILA-100M[2]的视频标签进行采样,从YouTube上收集原始高清视频。

由于原始视频具有复杂的场景转换,不利于生成模型学习时间相关性,因此使用PySceneDetect检测并分割这些原始视频中的场景,最终得到130M个单场景视频片段。

进一步,文章作者提取每个视频片段的中心帧作为关键帧,使用BLIP-2为关键帧加上描述文本作为每个视频片段的文本描述。

HD-VG-130M中的所有视频片段都是单一场景,这确保了关键帧的描述在大多数情况下具有足够的代表性,可以描述整个片段的内容。


该工作从视频类型、视频时长和描述文本长度三个方面对数据集进行了全面分析,确保了该数据集中的视频具有丰富的多样性,且时长与文本长度都利于视频生成模型的训练。


通过使用提出的大规模高质量数据集HD-VG-130M进行训练,网络在数值指标上得到了显著的提升,同时在生成视觉效果得到了显著的优化,例如生成的样本不再带有水印。

3. 实验结果

该工作以LDM作为预训练的图像生成网络,使用了公开的WebVid-10M和HD-VG-130M进行联合训练。

推理时,联合4x的预训练的超分辨率网络,最终生成1376 x 768的高清视频。

3.1 数值指标

该工作在多个数据集上进行了与Zero-Shot和非Zero-Shot方法相比较的丰富实验。


在UCF-101的实验中,VideoFactory在Zero-Shot的设定下,显著超越了其它同类型的模型,提升了FVD指标。


在MSR-VTT的实验中,该方法证明了其生成的样本与输入的文本具有极高的匹配程度。


在WebVid-10M中,文章作者选取了5K的独立测试集进行性能评估,该方法在生成指标上显著领先于现有的其它方法。


最后,该方法进行了人工评测,测评指标包含:视频画面质量、文本和视频内容的匹配程度、综合视频效果三个维度。

在与开源方法的对比中,VideoFactory以压倒性(综合偏好度93%)的优势获得了测评人员的认可。

同时VideoFactory也尝试了与当前的超大型闭源模型进行了性能的对比,该工作以超小的模型规模(仅12%~21%的参数量),在与这些模型公布的优秀样本对比中,取得了可匹敌的性能。

2.2 视觉效果

该工作也展示了与Imagen Video[3]、Make-A-Video[4]和Video LDM[5]的视觉效果对比。

值得注意的是,对比的方法均为当前未开源的超大模型,对比的样本均为各方法对应主页的优秀展示样本。


Make-A-Video只生成1:1的视频,这限制了用户体验。

与Imagen Video和Video LDM相比,该工作的模型生成的熊猫和金毛犬具有更生动的细节。


同时该工作也展示了与现有的其它开源模型的生成样本对比,可以明显看出,在画面构图、时序连贯性等方面,该工作有显著的效果领先。



更多生成样本展示了该工作高质量的泛化性和稳定性。

虽然目前该工作暂未公开项目主页,但小编发现作者搭建了一个数据集GitHub项目https://github.com/daooshee/HD-VG-130M),其中数据集可以通过邮件作者的方式申请。

应用模型

基于基础模型,团队实现了两个下游视频的生成任务,用以完全释放基础模型的性能,并直接能够与用户交互,实现良好的体验。

1. 电影生成模型MovieFactory

电子科技大学和MSRA等机构的研究人员提出了全自动化的电影生成模型。

用户只需要给出一句简单的电影主题,模型就可以帮用户生成电影级画质(3072 x 1280)、电影风格(多场景)和带有音乐的高质量电影。

目前,该论文已被ACM Multimedia 2023 Brave New Idea(BNI)接收。


作者列表:朱俊臣,杨欢,何汇国,汪文靖,拓子曦,郑文皇,高联丽,宋井宽,傅建龙

论文地址:https://arxiv.org/abs/2306.07257

1.1 方法设计

作者结合了现有的语言和图像生成大模型,构建出了可生成多幕场景的视频生成器,并采用了检索模型助力音频部分的生成。


由于要生成高质量的多幕场景,视觉生成模型需要多个引导文本。

为了让用户输入的简单且高度概括化的文本变成电影所需要的详细「剧本」,该工作采用了ChatGPT对文本进行扩充丰富。

作者设计了一套提示词(prompts)用以实现该功能。这些提示词引导ChatGPT形成一系列剧本,并且使得这些剧本能符合编剧的准则,同时能为用户指定的主题引入创新和独特的元素。此外,剧本也能有效地发挥视频生成模型的能力。

有了剧本之后,视频生成模型即可完成各幕的生成了。

考虑到电影与普通视频域之间存在的差异,例如:超宽屏画面和画面风格。 而高质量的电影 的相关数据却十分稀少,因此需要将预训练的基础模型快速迁移至电影生成上。


模型大体上与前文介绍的基础模型VideoFactory保持一致,并设计了新的模块用于实现快速的视频域迁移。

从图像生成模型拓展至视频生成模型时,不同于之前的工作会训练所有网络参数,该工作固定了预训练的所有参数,并添加了新的层对视频的空间信息进行拟合。

这种设计有两个优点:

1)可以完全保留预训练中的全部知识,从而生成训练数据集中不包括的内容和场景,这对于电影奇幻场景的生成尤为重要;

2)可以在新的模块中拟合多个视频域分布,这使得对于任何视频域数据的训练都不会产生数据域偏离的问题,并保持了网络生成高质量画面的能力。

基于这种设计,MovieFactory能够快速地从预训练视频迁移到电影画面的生成。

有了丰富的画面,电影还需要音乐和声效。对此,作者提出了采用检索模型依据画面和电影脚本为视频匹配合适的音频。


该工作同时采用了文本到音频和视频到音频的检索模型,以保证音效的丰富性和合理性。

同时对于背景音乐的选取,作者利用ChatGPT总结了故事情节和基调,然后将推荐的基调类别与音乐信息检索技术相结合,以识别合适的音乐曲目。

1.2 视频生成

作者选择Stable Diffusion 2.0作为基础图像生成模型,采用WebVid-10M和基础模型中提出的HD-VG-130M联合训练基础生成模型,并使用了少量的电影数据集进行画面的拟合。 最后采用了4x视频超分辨率模型获得3072×1280的高清超宽屏电影视频。


视频部分的生成结果展现了模型能够生成具有清晰画面(没有任何水印)和平滑物体运动的高质量视频。生成的视频涵盖真实与科幻的场景,并展示出了丰富的细节。

用户仅需给出简短的电影主题,例如一个宇航员的太空冒险(An Astronaut Space Adventure),该模型会自动生成电影的脚本,并由此生成多幕的带有音频的高质量电影。

airpods有几个h1芯片


2. 短视频生成模型MobileVidFactory

另一篇来自电子科技大学、MSRA,以及罗切斯特大学等机构的工作,提出了全自动化的移动设备短视频生成模型。

只需与用户进行简单的自然语言交互,模型即可生成竖屏、带有定制化内容和带有音乐的短视频。

目前,该论文已被ACM Multimedia 2023 Demo接收。


作者列表:朱俊臣,杨欢,汪文靖,何汇国,拓子曦,喻永生,郑文皇,高联丽,宋井宽,傅建龙,罗杰波

链接:https://arxiv.org/abs/2307.16371

值得注意的是,作为共同作者的罗杰波教授也是之前的视频生成工作latent-shift[1]的作者。

2.1 方法设计

该工作直击当前最火热的短视频,借助高效的视频生成模型和音频检索模型,结合基于文本的语音合成技术,构建出符合当前短视频风格的生成框架。


该框架分为两部分,分别是基础生成部分和可选择的定制化生成部分。

在基础生成中,该工作与MovieFactory一致,独立地生成视觉和听觉内容。 不同的是,该工作添加了可选择的视频插帧模型来提升 整个模型输出视频的连贯性。

在定制化生成中,作者为用户设计了两个可选的自定义功能。

首先,模型支持在视频中添加自定义的文本贴图,以辅助作者概括视频内容和表达创作想法。特别的,文本覆盖还促进了听力障碍者的无障碍性,并迎合了不同的受众。

除此之外,为了增加个人风格,增强短视频的故事性和提升整体真实感和互动性,模型允许用户在视频中添加配音。

依据用户提供的文本,模型使用预训练好的TTS(Text-To- Speech)将文本转换为配音 。 在这个过程中,用户 可以选择自己喜欢的语音,并且很好地支持各种语言,如英语和汉语。

2.2 短视频生成

该工作在生成画面的质量上符合短视频的构图和美感。


在最终的短视频生成上,达到了丰富的创作表达,和实现了短视频的趣味性。

参考资料:

[1] Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation. Jie An and Songyang Zhang and Harry Yang and Sonal Gupta and Jia-Bin Huang and Jiebo Luo and Xi Yin. In arXiv, 2023.

[2] Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions. Xue, Hongwei and Hang, Tiankai and Zeng, Yanhong and Sun, Yuchong and Liu, Bei and Yang, Huan and Fu, Jianlong and Guo, Baining. In CVPR, 2022.

[3] Imagen Video: High Definition Video Generation with Diffusion Models. Jonathan Ho and William Chan and Chitwan Saharia and Jay Whang and Ruiqi Gao and Alexey A. Gritsenko and Diederik P. Kingma and Ben Poole and Mohammad Norouzi and David J. Fleet and Tim Salimans. In arXiv, 2022.

[4] Make-A-Video: Text-to-Video Generation without Text-Video Data. Uriel Singer and Adam Polyak and Thomas Hayes and Xi Yin and Jie An and Songyang Zhang and Qiyuan Hu and Harry Yang and Oron Ashual and Oran Gafni and Devi Parikh and Sonal Gupta and Yaniv Taigman. In ICLR, 2023.

[5] Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models. Andreas Blattmann and Robin Rombach and Huan Ling and Tim Dockhorn and Seung Wook Kim and Sanja Fidler and Karsten Kreis. In CVPR, 2023.


返回网站首页

本文评论
三星Galaxy Z Fold3/Z Flip3售价曝光:相比现款或有新惊喜_三星galaxy z flip3价格
  根据日前官方宣布的消息,正如此前多方爆料的,三星Galaxy新品发布会定档8月11日22:00,届时三星将发布Galaxy“新一代惊艳之作”,包括备受瞩目的GalaxyZ Fold3和GalaxyZ Flip...
日期:05-23
玩游戏不郁闷 体验4399游戏盒系统辅助功能_4399游戏盒怎么玩游戏
  新游戏发布迫不急待的想玩,辛苦下载回来却发现本机硬件配置根本达不到运行要求;网络下载大型游戏时,想浏览网页却发现奇慢无比..如此种种的郁闷游戏过程,没人会喜欢!但是,如...
日期:07-30
ins的照片「谁用谁夸的ins超清原图下方法!速速来get新技能!」
谁懂啊!ins里面的图片真的非常惊艳!但是ins没有提供能下载图片的功能,真的很让人抓狂ok?作为一个追星达人,我一定要给你们安利这个可以下载ins超清原图的办法!印度5g发布时间...
日期:06-02
央视3·15晚会第三弹:电动车安全头盔不安全 成戴在头上的“刀片”
在泰国香米、美容针之后,央视315晚会的第三弹直指电动自行车的安全头盔,直言本应是保护安全的头盔却不安全。近两年,全国各地都开始推进强制性要求骑电动车自行车要戴头盔,在遇...
日期:03-15
国产手机再突破:全球首发26G内存+7000毫安大电池+透明机身!_国产内存最大的手机
虽然苹果iPhone一直被认为是手机行业的标杆产品,但要论大胆的创新能力,和安卓手机比还是过于保守了。苹果对iPhone强调的更多是整体的体验,而安卓则更多是核心配置上的狂野升级...
日期:07-20
苹果 m3「苹果M3可能要黄了!为A17让路」
据报道,苹果公司原计划在今年推出全新一代M3芯片,应用于新一代MacBook Air、13英寸MacBook Pro、24英寸iMac、Mac mini等产品,但因台积电3nm工艺的技术难题,量产和产能无法满足...
日期:05-04
同花顺:大模型产品正在向相关主管部门申请备案阶段「同花顺模拟大赛怎么赢」
6月28日 消息:近日,同花顺表示,大模型产品目前正在向相关主管部门申请备案阶段。搜狐CEO张朝阳中芯国际可以做汽车芯片吗苏炳添谈刘翔目前,公司各个业务方和产品都在进行适配工...
日期:06-28
强推Win11:微软即将停售Win10数字许可_微软推出Windows 11
自从Win11问世后,微软就从来没有放弃过推广自家的新系统,在引导老用户升级的同时,也在想尽办法吸引新用户选择Win11,而非Win10。现在,微软终于想到了一种可以彻底解决新用户买Win...
日期:01-19
极氪001售价公布「极氪001宣布限时降价3万-3.7万元 优惠后26.9万元起」
8月11日 消息:极氪汽车宣布其001车型降价3万 -3.7万元,起售价降至26.9万元,并且部分车型还附赠7kW 智能家充服务套餐。火车票预售期15天 新闻具体降价情况如下:360路由器拆解-...
日期:08-11
脉脉 投资人「脉脉CEO林凡:ChatGPT带动的AIGC创业热潮要来了」
2月14日消息,脉脉CEO林凡在脉脉上发布消息称,ChatGPT带动的AIGC创业热潮要来了!猎头已经开出10万月薪抢人。老王5000万美元带资进组要做中国的OpenAI引发全网关注,冲上脉脉社区...
日期:02-15
经济日报:生鲜电商“烧钱”烧不出美好未来「生鲜电商发展问题」
  来源:经济日报腾讯持股美团  最近,生鲜电商龙头企业每日优鲜备受关注,先后经历极速达业务暂停、APP无法使用、北京市消协约谈、股价跳水等,引发了市场对“生鲜电商是否还...
日期:09-08
有厂商扛不住了:RTX 3080出现史低价!比二手都划算「rtx3070断货」
随着以太坊完成合并导致挖矿收益锐减,加之RTX 40系显卡发布等因素刺激,市场存量显卡的价格正越来越低。有用户注意到,北美一电商正促销盈通RTX 3080 10GB显卡。虽然标价779美元...
日期:10-03
中标麒麟操作系统完成飞腾认证,支持所有国产芯片(中标麒麟是国产操作系统吗)
  近期,中标软件有限公司(中标软件)与天津飞腾信息技术有限公司(飞腾)宣布:中标麒麟操作系统与飞腾芯片完成桌面及服务器产品兼容互认证。中标麒麟操作系统以开放技术,完全...
日期:10-07
Steam客户端大规模更新!新增实用笔记功能
快科技6月15日消息,今天,Steam官方发布公告,宣布面向所有用户推送新的Steam客户端。此次推送的新版本客户端,在原有版本的基础上进行了大量的优化改进,对客户端的底层架构进行了...
日期:06-15
你猜到了吗?全球卖得最好的中国品牌手机:遥遥领先其它厂商_中国卖的最好的手机是什么牌子
目前全球卖得最好的中国品牌手机,你知道是谁吗?快科技7月19日消息,今日,权威市调机构Canalys(科纳仕)发布的最新数据报告显示,2023年第二季度全球智能手机市场下降11%,复苏在望。数...
日期:07-21
“米伽”变种潜伏U盘 疑似越南病毒流入国内
  据新华社报道,一种名为“米伽”变种gst的病毒在8月初现身互联网。根据360安全中心监测,该病毒主要通过U盘传播,它会将中招电脑的浏览器首页篡改为一家英文网站,360杀毒和36...
日期:07-22
互联网+上门血液采样的 困局与破局
作者: 邓勇   [ “互联网+上门血液采集”是“互联网+护理服务”的重要组成部分,在我国慢性病高发、老龄化程度加深的国情下具有实际价值。但是目前该机制还处于初步探索阶段...
日期:08-11
酷冷至尊发布 MasterAir MA624 Stealth 散热器:六热管双风扇,售价约 655 元
  1月10日消息 酷冷至尊于 1 月 8 日 CES 期间发布了 MasterAir MA624 Stealth 旗舰风冷散热器。这款产品有着两组铝鳍片设计,表面覆盖黑色喷漆,十分低调。产品自带两个风...
日期:07-10
每日优鲜被冻结92万余元财产_每日优鲜什么时候破产
财联社8月19日电,裁判文书网近日公开了北京市恒慧通肉类食品有限公司与北京每日优鲜电子商务有限公司民事裁定书。其中显示,北京市恒慧通肉类食品有限公司向法院提出诉前财产...
日期:08-21
比亚迪利润2019「日赚4500万 比亚迪2022利润大涨4.5倍:再超特斯拉成全球第一」
3月28日,比亚迪也发布了2022年年报,实现营收4240.61亿元,同比增长96.20%;归母净利润166.22亿元,同比增长445.86%;归母扣非后净利润156.38亿元,同比增长1146.42%,算下来日赚4500万元...
日期:03-29