您的位置:首页 > 互联网

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

发布时间:2023-12-17 21:00:06  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩、陈萍,授权转载发布。

图源备注:图片由AI生成,图片授权服务商Midjourney

文生视频领域又卷起来了!

虎牙第三季度营收12.766亿元 付费收入同比增长120.2%

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720分辨率没有压力,而且生成效果非常连贯。

这些 demo 来自阿里联合浙江大学、华中科技大学提出的文生视频模型 I2VGen-XL,该模型能够生成各种类别的高质量视频,如艺术画、人像、动物、科幻图等。生成的视频具有高清、高分辨率、平滑、美观等优点,适合广泛的视频内容创作任务。在与 Gen2、Pika 生成效果对比上, I2VGen-XL 生成的视频动作更加丰富,主要表现在更真实、更多样的动作,而 Gen-2和 Pika 生成的视频似乎更接近静态。

除了生成效果,这项工作更令人印象深刻的一点是研究人员在数据上下的工夫。为了提高生成效果的多样性,研究人员收集了大约3500万单镜头文本 - 视频对和60亿文本 - 图像对来优化模型,这是一个非常庞大的数据集,其后续潜力令人期待。

论文细节

  • 论文地址:https://arxiv.org/pdf/2311.04145.pdf

  • 论文主页:https://i2vgen-xl.github.io/page04.html

该研究表示得益于扩散模型的快速发展,视频合成最近取得了显著的进步。然而,它在语义的准确性、清晰度和时空连续性方面仍然面临挑战。

出现这种状况的原因一方面是由于缺乏良好的经过对齐的文本 - 视频数据,另一方面在于视频本身复杂的内在结构,使得模型难以同时保证语义和质量的卓越性。

为了解决上述问题,研究者受到 SDXL 方法的启发,提出了一种级联的 I2VGen-XL 方法,其能够生成具有连贯空间和运动动态化以及细节连续的高清视频。

I2VGen-XL 旨在从静态图像生成高质量视频。因此,它需要实现两个关键目标:语义一致性,即准确预测图像中的意图,然后在保持输入图像的内容和结构的同时生成精确的运动;高时空一致性和清晰度,这是视频的基本属性,对于确保视频创作应用的潜力至关重要。为此,I2VGenXL 通过由两个阶段组成的级联策略分解这两个目标:基础阶段和改进阶段。

  • 基础阶段旨在保证低分辨率下生成视频的语义连贯,同时还要保留输入图像的内容和主体信息。为了达到这一目标,研究者设计了两个分层编码器,即固定 CLIP 编码器和可学习内容编码器,分别提取高级语义和低级细节,然后将其合并到视频扩散模型中。

  • 改进阶段:将视频分辨率提高到1280×720,并改进生成视频中存在的细节和伪影。具体来说,研究者使用简单的文本作为输入来训练一个独特的视频扩散模型,并优化了其初始的600个去噪 step。通过使用噪声去噪过程,该研究实现了从低分辨率视频生成具有时间和空间一致性的高清视频。

  • 具体而言:

    基础阶段。基于 VLDM,本文设计的第一阶段是低分辨率(即448×256),主要侧重于在输入图像上结合多级特征提取,包括高级语义和低级细节学习。

  • 高级语义学习。该研究表示用 CLIP 的视觉编码器来提取语义特征,这种方法可以学习高级语义,但忽略了图像中精细细节的感知。为了缓解这个问题,本文结合了一个额外的可训练全局编码器来学习具有相同形状的互补特征,其架构如表1所示。

  • 低级细节。为了减少细节的损失,本文采用从 VQGAN 编码器(即 D.Enc.)提取的特征,并将它们直接添加到第一帧的输入噪声中。

  • 改进阶段。经过基础阶段可以获得具有多样化且语义准确的运动的低分辨率视频。然而,这些视频可能会遇到各种问题,例如噪声、时间和空间抖动以及变形。因此,改进模型有两个主要目标:i)增强视频分辨率,将其从448×256增加到1280×720或更高;ii) 提高视频的时空连续性和清晰度,解决时间和空间上的伪影问题。

    华为最新款荣耀x40

    为了提高视频质量,该研究训练了一个单独的 VLDM,专门处理高质量、高分辨率数据,并对第一阶段生成的视频采用 SDEdit 引入的噪声去噪过程。

    该研究还使用 CLIP 对文本进行编码,并通过交叉注意力将其嵌入到3D UNet 中。然后,基于基础阶段的预训练模型,研究者使用精心挑选的高质量视频训练高分辨率模型,所有视频的分辨率都大于1280×720。

    此外,该研究还收集了3500万个高质量 single-shot 视频和60亿张图像,以达到增强 I2VGen-XL 多样性和稳健性的目的。

    最后,广泛的实验评估结果表明 I2VGen-XL 可以同时增强生成视频的语义准确性、细节的连续性和清晰度。此外,该研究还将 I2VGenXL 与当前的顶级方法进行了比较,结果都表明 I2VGenXL 在各种数据上的有效性。

    实验结果

    与 Gen2和 Pika 的比较结果

    蔡继明贴吧

    为了证明新方法的有效性,研究者将 I2VGen-XL 的性能与 Gen-2和 Pika 进行了比较,二者被公认为是目前文生视频领域最先进的方法。如图4所示,作者使用这两种方法的网页界面生成了三种类型图像的视频,包括虚拟、写实和抽象绘画。

    从这些结果中可以得出以下个结论:i) 动作的丰富性:I2VGen-XL 的结果显示出更真实、更多样的动作,例如最上方的例子。相比之下,Gen-2和 Pika 生成的视频似乎更接近静态,这表明 I2VGen-XL 实现了更丰富的运动;ii) ID 保留程度:从这三个样本中可以看出,Gen-2和 Pika 成功地保留了物体的身份特征,而 I2VGen-XL 则丢失了输入图像的一些细节。在实验中,作者还发现 ID 保留程度和运动强度之间存在一定的权衡关系。I2VGen-XL 在这两个因素之间取得了平衡。

    改进模型分析

    图3展示了改进阶段前后生成的视频。这些结果表明,空间细节得到了大幅提升,包括面部和身体特征的细化,以及局部细节中噪音的明显减少。

    为了进一步阐明改进模型的工作机制,本文在图7的频域中分析了在此过程中生成的视频中发生的空间和时间变化。图7a 显示了四个空间输入的频谱,表明:低质量视频表现出与高频范围内的噪声相似的频率分布,而高质量视频表现出与输入图像的频率分布更相似。将其与图7b 所示的空间频率分布相结合,可以观察到改进模型有效地保留了低频数据,同时在高频数据中表现出更平滑的变化。从时间维度的角度来看,图7d 呈现了低质量视频(上)和高质量视频(下)的时间曲线,表明高清视频的连续性有了明显的改善。此外,结合图7b 和图7e 可以看出,改进模型在空间和时间域中保留了低频分量,减少了中频分量,并增强了高频分量。这表明时空域中的伪影主要存在于中频范围。

    定性分析

    该研究还对更广泛的图像进行了实验,包括人脸、3D 卡通、动漫、国画、小动物等类别。结果如图5所示,图中可以观察到生成的视频考虑了图像的内容和合成视频的美感,同时还表现出有意义且准确的动作。例如,在第六行,模型准确地捕捉到了小猫可爱的嘴巴动作。这些结果表明 I2VGen-XL 表现出有前途的泛化能力。

    生成稳定的人体运动仍然是视频合成的主要挑战。因此,该研究还专门验证了 I2VGen-XL 在人体图像上的稳健性,如图8所示。可以观察到,该模型对人体的预测和生成的运动相当真实,具有人体的大部分特征。

    文本 - 视频

    文本到视频合成目前面临的主要挑战之一是高质量视频 - 文本对的收集,这使得与图像合成相比,实现视频和文本之间的语义对齐更加困难。因此,将 Stable Diffusion 等图像合成技术与图像到视频合成相结合,有助于提高生成视频的质量。事实上,为了尊重隐私,该研究几乎所有样本都是由两者结合生成的。另外,在图6中是本文单独生成的样本,可以观察到视频和文本表现出很高的语义一致性。


    返回网站首页

    本文评论
    开学第一课:高质量的陪伴从情绪同频开始
      每到开学季,人们站在幼儿园门口发现:有多少哭丧着脸走进校园的孩子,就有多少欢欣雀跃摆手出门的家长,经历了假期相互折磨(陪伴),分开成了对彼此的放过。在这看似有些哭笑不...
    日期:07-16
    证券公司开展各项业务应当遵循「两部门:严格落实证券业务必须持牌经营要求」
    12月23日 消息:今日,网信中国公众号发布《非法证券活动网上信息内容治理工作方案》严厉打击股市“黑嘴”、非法荐股等行为。方案要求,清理处置涉非法证券活动的信息、账号和网...
    日期:12-23
    Pravega Flink connector 的过去、现在和未来
      本文整理自戴尔科技集团软件工程师周煜敏在 Flink Forward Asia 2020 分享的议题《Pravega Flink Connector 的过去、现在和未来》,文章内容为:   Pravega 以及 Praveg...
    日期:06-08
    微软 Win11 一键更改默认浏览器发布_win10自带浏览器怎么改默认主页
      ITBEAR科技资讯4月13日消息,3月份,微软为windows11发布Build22000.593(KB5011563)可选更新,让用户更易于在Windows11中切换默认浏览器。   在今天发布的Build22000.613(...
    日期:07-18
    女孩在闹市被无人机刮伤脸 系电量耗尽掉落「被无人机打伤的照片」
    6 月 5 日晚上,杭州市湖滨步行街上,一名女孩在逛街时突然被一架从空中坠落的无人机割伤了脸部。当时,步行街上人流密集,有目击者说,女孩和朋友一起走着,无人机不知从哪里掉下来,直...
    日期:06-06
    盗用别人视频被抓!千万女网红痞幼3个月广告收入约为1620万 赚钱太容易
    快科技11月28日消息,据国内媒体报道称,盗用他人视频被举报上热搜后,千万网红痞幼更多细节被曝光,其3个月广告收入约为1620万。巨量星图显示,截止2023年9月15日,近90天痞幼共更新46...
    日期:11-29
    曾是“世界天眼”的射电望远镜,如今却锈迹斑斑,宛如巨型垃圾场
    自古以来,世人对外太空很是好奇,常常会幻想外太空的景象,也对此付出了很多努力。然而,人们想要探索外太空,但也无计可施,直到科技发展水平逐步提高,科学家们集思广益发明了各种探索...
    日期:09-12
    中国移动游戏玩家_中国移动游戏基地全球征集安卓游戏结果出炉
      20款手机游戏成移动创新合作模式首批受益者   日前,中国移动游戏基地广发英雄帖,面向全球征集优秀安卓游戏,引起业界人士的广泛关注。近日,中国移动游戏基地对外宣布结果...
    日期:07-22
    开城数量行业第一!小鹏汽车无图城市智驾正式全量推送_小鹏汽车智慧出行运营建设epc总承包项目
    快科技11月28日消息,今日晚间,小鹏汽车官方表示,小鹏汽车无图城市智驾Xmart OS 4.4.0升级包正式全量推送。此次无图XNGP升级包,将新增覆盖苏州、杭州、无锡、宁波、常州等20个城...
    日期:11-29
    微软Edge浏览器最新功能:Bing AI 帮你以不同风格重写文本_edge浏览器修改
    8月7日 消息:近日,微软更新了桌面版 Microsoft Edge 浏览器,新增了使用 Bing AI 重写文本的功能。此前,微软已经在 iOS 和 Android 上的 SwiftKey 键盘应用中推出了类似的功能...
    日期:08-07
    荣耀平板 MagicPad 支持空间音频技术_荣耀平板能扩容吗
    7月10日 消息:荣耀官方在最近的新品发布会上宣布了一款名为荣耀平板 MagicPad 的新品。这款平板是业界首款支持裸耳3D空间音频技术的平板设备,用户可以在没有耳机的情况下享...
    日期:07-10
    36氪宣布接入百度文心一言能力_36氪文章
    2 月 15 日讯: 36 氪宣布成为百度文心一言首批生态合作伙伴。后续, 36 氪将全面体验并接入文心一言的能力。 36 氪将把百度领先的智能对话技术成果应用在内容生态领域。现有...
    日期:02-15
    2020万人次创纪录!火车上人多到爆:列车员被挤出“夹子音”_火车上挤满了人
    这个假期出行有多火爆,相信大家已经见过了各种各样的高速堵车新闻,而在火车、客车等各种交通工具上,也都是一个字。9月29日,有网友实拍了一段火车上的情景,连过道都站满了乘客,列...
    日期:09-30
    苹果 Safari 将利用 Face ID 和 Touch ID 支持无密码登录_appstore不能用faceid只能用密码
      北京时间 6 月 25 日早间消息,据外媒报道,苹果浏览器 Safari 14 将与 iOS 14 和 macOS Big Sur 一起发布,用户可以通过 Face ID 或 Touch ID 登录支持这一新功能的网站。S...
    日期:07-14
    iQOO 11手机售价公布:3799元起_iqooz1手机最低价格
    今天下午亮点,iQOO 11系列手机正式发布,iQOO 11标准版共有三个配置,分别是8+128、8+256和12+256G,售价分别为3799、4099和4399元。智能手机防水吗iQOO 11手机有着不错的外观,经过...
    日期:12-09
    iPhone 15系列与华为充电器不兼容引发热议_iphone和华为充电线一样吗
    近日,iPhone 15系列全系改用USB-C接口的消息引起了不小的轰动。然而,网络上出现了一些关于华为充电器无法给iPhone 15充电的报道,这一现象引发了广泛的讨论和关注。点赞,收藏,关...
    日期:09-28
    助力数字中国建设,“国家云”框架已经成型「国家数字化资源中心」
    一、数字经济成为推动我国经济发展的重要引擎,成为构筑国家竞争优势的有力支撑,数字中国建设成效显著。(一)党中央对数字中国建设作出重要战略部署。建设数字中国是数字时代推进...
    日期:06-03
    天津移动携手华为开启演唱会保障新模式,杰迷体验“津妙绝伦”
    通信世界网消息(CWW)近日,周杰伦【嘉年华】世界巡回演唱会天津站于天津奥体中心体育场成功举办,连续4场人山人海的演唱会,为到场的观众带来了一场视听盛宴。4天的观众中移动用户...
    日期:09-20
    腾讯控股:回购125万股,共耗资约3.53亿港元_腾讯控股回购股票
      财联社9月26日电,腾讯控股在港交所发布公告,当日回购125万股,回购价格为273.2-287.4港元,共耗资约3.53亿港元。苹果se2对比华为p30宇通客车核心竞争力amazfit智能手环富途q3...
    日期:09-28
    BLG夺《英雄联盟》MSI亚军 B站:BLG粉丝赠送一年大会员
    快科技5月22日消息,在刚刚结束的英雄联盟2023季中冠军赛(MSI)决赛中,来自中国LPL赛区的JDG以3:1击败同赛区战队BLG获得2023季中冠军赛冠军,获得LPL赛区MSI第五冠。据了解,这是中国...
    日期:05-22