您的位置:首页 > 互联网

如何制作可以拖动的图片「拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳」

发布时间:2023-08-21 19:13:16  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:小舟,授权转载发布。

随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。

基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。

如何制作可以拖动的图片

oppo5000毫安oled5g手机

论文地址:https://arxiv.org/abs/2308.08089

以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:

如何制作可以拖动的图片

如何制作可以拖动的图片

共享充电宝坑人

还可以「变换」静态景物图像的相机位置和角度:

如何制作可以拖动的图片

如何制作可以拖动的图片

方法简介

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图1所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。

如何制作可以拖动的图片

DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。

抖音称外卖服务仍在试点 相关商标已注册完成怎么回事

如何制作可以拖动的图片

如何制作可以拖动的图片

为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:

  • 使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;

  • 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹;

  • 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。

如何制作可以拖动的图片

实验及结果

该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。

与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。

诺基亚C31将推出国行版

如下图4所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。

如何制作可以拖动的图片

为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图5所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。

如何制作可以拖动的图片

此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图6通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。

如何制作可以拖动的图片


返回网站首页

本文评论
深耕产业数字化 中兴通讯发布多款行业新品「中兴通讯 数字化转型」
通信世界网消息(CWW)日前,在北京举办的第31届中国国际信息通信展览会上,中兴通讯发布了新能源制造行业智慧厂区物流方案、城轨数字星云智慧车站一体机、新一代港口5G低带宽远控...
日期:06-09
飞猪:今年国庆周边游订单量较春节增超80% 云旅游成热门选项_飞猪旅游优惠券
10月8日 消息:近日,飞猪发布国庆旅游消费观察报告。数据显示,今年国庆周边游订单量较春节增超80%,其中,云旅游成为本地旅游消费的热门选项之一。驿路星辰(北京)科技有限公司怎么...
日期:10-22
苹果头显这把火,能点亮元宇宙暗夜吗?_苹果头在哪里
接任乔布斯12年后,库克终于迎来了真正属于自己的One more thing时刻,寄希望于用MR(增强现实)开启后iPhone时代。在6月6日凌晨的苹果全球开发者大会(WWDC)上,这款MR设备被正式命名为...
日期:06-07
李佳琦,还是国产美妆的“救星”吗?
声明:本文来自于微信公众号 连线Insight(ID:lxinsight),作者:晓阳,授权转载发布。疫情对美妆行业的影响还在持续,在李佳琦、薇娅缺席今年618大促的背景下,美妆赛道终于迎来了双十...
日期:11-01
“运维智简”先行者,安徽联通携手华为打造主动运维体系「联合运维服务模式华为提供哪些资源支撑」
通信世界网消息(CWW)近日,安徽联通联合华为在合肥完成无线运维智能化创新试点。双方基于华为IntelligentRAN的iFaultCare解决方案,协同AUTIN智能运维平台,助力安徽联通构建无线网...
日期:06-07
女子住酒店被毒蛇咬伤 酒店拒担全责 这事纯属意外「住酒店被虫咬了又痒又疼红肿」
韩韩(化名)已经在普洱一家医院住了将近一个月,她被毒蛇咬伤后身体非常难受,视力也只有0.3。她和丈夫于2月17日入住普洱小熊猫庄园酒店,当晚就遭遇了银环蛇的袭击。韩韩告诉记者,目...
日期:03-16
去而复返,B站为什么吸引“巫师财经”们?_B站谈巫师财经退出
  文/翟元元  与B站分道扬镳两年后,创作者巫师财经选择重新回归B站。8月16日,UP主巫师财经对外宣布,将恢复全网发布内容。他在回归声明中解释称,当初为了追求混乱和利益,离开...
日期:08-27
美国苹果手机市场份额排名「iPhone 14 系列深受美国苹果用户追捧:占比 79%、仅次于 iPhone 7 系列」
IT之家 7 月 20 日消息,根据市场调查机构 CIRP 公布的最新报告,自苹果 2017 年推出 iPhone 7 以来,iPhone 14 系列在美国市场的份额占比最高。坚持写日记的好处比特币市值占比...
日期:07-20
小红书内容开放平台「618前夜,小红书全面开放“笔记带货”」
声明:本文来自微信公众号“亿邦动力”(ID:iebrun),作者:李梦琪,授权转载发布。“小红书终于开始认真做转化了。”有小红书服务商感叹道。继成立新的直播部门,布局董洁等头部大主播...
日期:05-16
中信出版社入驻豆丁网 出版业数字阅读业务迅猛提速_中信阅读事业部
  最新消息,日前国内大型的版权机构中信出版社与全球最大的中文社会化阅读平台豆丁网(www.docin.com)达成了战略合作,共同在图书数字发行方面展开了深度探索。现阶段,中信出...
日期:07-22
全球首台!苏大维格大型紫外 3D 直写光刻设备 iGrapher3000 投入运行(光刻机清华大学)
  7月28日消息 苏大维格科技官方宣布,大型紫外 3D 直写光刻设备 iGrapher3000下线并投入工业运行。iGrapher3000 主要用于大基板上的微纳结构形貌的 3D 光刻,是新颖材料、...
日期:07-14
德州仪器2020净利润「德州仪器(TI)2022年第三季度营业收入52.4亿美元 较去年同期增长13%」
10月29日消息,德州仪器公司(TI)近日公布其第三季度财务报告,营业收入52.4亿美元,净收益23亿美元,每股收益2.47美元。其中,每股收益包含未涵盖在公司原始计划的2美分。关于公司业绩...
日期:10-30
租房降级?越来越多年轻人住30元1天太空舱 网友热议没必要租房了
你住过30元一天的太空舱吗?30元一天的太空舱只保留了一个最初级的功能睡觉。据悉,这种太空舱的主要客户包含了,日结建筑工,外卖员,不火的网络主播等等。特斯拉超级充电桩v4字节跳...
日期:07-04
美国证券交易委员会对生成式人工智能在金融市场的影响表示担忧
7月18日 消息:据theverge报道,美国证券交易委员会(SEC)对生成式人工智能对金融市场的影响表示关切。在周一向国家新闻俱乐部发表的演讲中,SEC主席加里·根斯勒(Gary Gensler)表示,...
日期:07-18
索尼ps5出货量「索尼PS5主机销量突破4000万台 明年换8K版PS5 Pro」
快科技7月28日消息,在最新一代的主机大战中,索尼PS5又要领先了,今晚索尼宣布PS5销量突破4000万部。今年1月份的发布会上,索尼才宣布PS5销量突破3000万,这意味着半年时间又增加了1...
日期:07-28
饿了么在上海推出外卖奶茶数字藏品 限量1万份
8月16日 消息:近来,元宇宙很火,不少企业都纷纷入局,推出自己的数字藏品。今年“五五购物节”期间,饿了么在上海推出首个外卖奶茶数字藏品,限量1万份,其中发行团队预留1000份用于活...
日期:08-16
巴西消保组织警告三星公司可能因手机不标配充电器被起诉
  5月18日消息,据SamMobile报道,三星从Galaxy S21系列开始,不再标配充电器,理由是环保,这项举措可能会引发一场诉讼。SamMobile报道称,巴西有关部门可能会对三星的这种做法采...
日期:02-04
百度商业AI技术创新大赛区域赛落幕,各大高校科技新秀角逐复赛_百度ai技术平台
在AIGC浪潮席卷的当下,百度商业AI技术创新大赛正如火如荼地进行,与极具创造力的年轻学子共同探讨AI技术的创新应用,挖掘AIGC在商业领域发展的更多可能性。iphone11 ios15.7和io...
日期:07-26
极光大数据积极布局物联网,推出全新IoT SDK_极光物联科技
  近日,国内领先的大数据服务商极光大数据(Aurora Mobile, NASDAQ: JG)宣布推出一款全新的IoT云服务——极光IoT(JIoT)。极光IoT依托于极光深耕开发者服务领域多年积累的...
日期:04-03
210W不是终点!更高功率快充正在路上:不到10分钟满电「极限快充20秒充满电」
骁龙旗舰芯、大底主摄、高刷屏、旗舰散热......”,你有没有发现,今天的智能手机同质化现象愈发严重,各家旗舰手机的核心硬件配置几乎完全一致,如何利用差异化卖点打动用户成了厂...
日期:10-04