您的位置:首页 > 互联网

兵马俑跳《科目三》,是我万万没想到的_兵马俑15秒

发布时间:2024-01-05 04:17:03  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:金磊,授权转载发布。

家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了!

热度还居高不下,瞬间被轰上了热搜,小伙伴们纷纷惊掉了下巴表示“闻所未闻,见所未见”。

这到底是怎么一回事?

原来,是有人借助了阿里之前走红的AI技术——AnimateAnyone,生成出来了这个舞蹈片段。

技术圈的盆友对这个技术都不陌生,“出道”至今仅仅1个月时间,这个项目便已经在GitHub上斩获了超1.1万个star。

呼唤它能让更多人轻松上手体验的声音,也越来越多。

好消息是,现在AnimateAnyone已经可以免费体验了!

而且“入口”还直接被嵌进了阿里通义千问APP——名曰:通义舞王。

很快,各种效果、各种玩法、各种人物,都动了起来……例如微博网友“Simon_阿文”,让拿破仑表演了一把……

这标致的舞姿,这反差的形象,着实算是把脑洞给打开了。

也有不少网友换了个思路:

想用自己照片试试;以后投宅舞视频可以直接生成了。

所以效果究竟行不行,我们也忍不住实测了一波~

让贝佐斯舞一段《极乐净土》

打开通义千问APP,我们只需要点击对话框中的“一张照片来跳舞”:

或者在输入框内敲“通义舞王”或“全民舞王”等关键词,就可以跳转到相应界面了:

接下来的操作,也正如我们刚才所说:极、其、简、单。

首先,在众多已经提供的模板中,pick一个。

目前通义千问APP提供了12个模板,这次我们就选择二次元最爱、宅舞《极乐净土》测试一下~

然后,选一位测试对象。比如我们找了(前)全球首富贝佐斯:

需要说明的是,在选择照片的时候,还是需要一点“技巧”的,“通义舞王”也有相应提示:

  • 正面站立

  • 全身照

  • 全身无遮挡

  • 无仰俯角

在此之后,直接点击“立即生成”,静候几分钟,贝佐斯大跳《极乐净土》的视频,就诞生了:

是不是效果还行?虽然还不能讲“真假难辨”,但首富都能这样为你跳一曲了,还要什么自行车。

不仅如此,“通义舞王”除了能够生成真人风格之外,还有其他风格可玩。

例如动漫风格的小姐姐跳DJ慢摇:

还有卡通风格的人物热舞:

总而言之,现在你想让任何人跳舞——一张全身照就够了。

redmi note 11 5g手机怎样

苹果因不送充电器被告

不过有一说一,虽然“通义舞王”已经成功吸引了众多网友前来玩耍,反响火爆,但它也还没到完美无瑕的境界。

例如等待时长,现在平均时间大约在10分钟左右(有点久,但毕竟是免费的,还要啥自行车啊)。

还有就是从视频效果来看,如果照片角度不好或者清晰度不够也会影响AI对于人物手部的处理。

这些问题,实际都与背后的技术原理和技术挑战,密不可分。

怎么做到的?

在视觉生成任务中,目前较为主流的方法便是扩散模型。

但在仅靠一张照片就生成视频这件事上,它还面临着诸多的挑战,例如人物形象一致性(consistency)的问题。

简单来说,就是如何保证照片人物在动起来的过程中,各种细节能够和原照片保持一致。

为此,阿里团队在扩散模型的基础之上,提出了一个新的算法,也就是我们刚才提到的AnimateAnyone。

从一致性、可控性和稳定性三个方面,保证了视频输出的效果和质量。

例如在一致性方面,阿里团队引入的是ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节。

具体而言,在参考图特征提取上,ReferenceNet采用的是与去噪UNet类似的框架,但没有包含时间层;它继承了原始扩散模型的权重,并独立进行权重更新。

在将ReferenceNet的特征融合到去噪UNet时,首先将来自ReferenceNet的特征图x2复制t次,并与去噪UNet的特征图x1沿w维度连接;然后进行自注意力处理,并提取特征图的前半部分作为输出。

虽然ReferenceNet引入了与去噪UNet相当数量的参数,但在基于扩散的视频生成中,所有视频帧都需要多次去噪,而ReferenceNet只需在整个过程中提取一次特征,因此在推理过程中不会导致显著增加计算开销。

在可控性方面,阿里团队使用的是Pose Guider姿态引导器。

Pose Guider姿势引导器采用的是一个轻量级设计,而不是引入一个额外的控制网络。

具体来说,使用了四个卷积层(卷积核大小为4×4,步幅为2×2,通道数分别为16、32、64、128),这些卷积层用于将姿势图像对齐到与噪声潜变量相同的分辨率。

处理后的姿势图像会被加到噪声潜变量上,然后一起输入到去噪UNet中,从而在不显著增加计算复杂性的情况下,为去噪UNet提供姿势控制。

最后是在稳定性方面,阿里团队引入的是一个时序生成模块。

时序层的设计灵感来源于AnimateDiff,通过在特征图上执行时间维度的自注意力,以及通过残差连接,其特征被整合到原始特征中。

同样的,这个模块的作用之下,满足了在保持时间连续性和细节平滑性的同时,减少了对复杂运动建模的需求。

最终,在AnimateAnyone的加持之下,从效果上来看,保证了图像与视频中人物的一致性。

这也是AnimateAnyone背后的技术原理。

兵马俑跳男团舞

然而,阿里之所以不断在AnimateAnyone上攻坚优化,并非完全出于技术很酷很有潜力,还藏着一颗引领视频生成技术的野心。

因为大家都在问“What is the Next?”的时候,LVM(Large Vision Model),已经潮水声轰鸣了。

What is the Next?

实际上,在AnimateAnyone火

了之后,阿里还有另一项视频生成技术在同时出圈。

它叫DreaMoving,只需一张脸部照片、一句话描述,就能让你在任何地方跳舞!

例如下面这段《擦玻璃》的舞蹈视频:

你所需要做的就是“投喂”一张人像,以及一段prompt:

一个女孩,微笑着,在秋天的金色树叶中跳舞,穿着浅蓝色的连衣裙。

apple watch series 7发语音怎么停

而且随着prompt的变化,人物背景和身上的衣服也会随之发生改变。例如我们再换两句:

一个女孩,微笑着,在木屋里跳舞,穿着毛衣和长裤。

一个女孩,微笑着,在时代广场跳舞,穿着连衣裙般的白衬衫,长袖,长裤。

和AnimateAnyone一样的,它也是真人、卡通、动漫人物统统都能hold住。

当时也引来了不少网友们的热玩和惊呼。

这些都是阿里在视频生成上的“沿途下蛋”,都是“勇攀珠峰”——死磕AI视频生成技术的证明和结果。

为什么?

因为纵观去年一整年的AIGC发展的脉络,AI视频生成的爆发趋势似乎越来越明确了。

2022年底以来,从最初ChatGPT引爆大语言模型,全球科技巨头乃至初创企业纷纷入局,到后来各家不仅限于自然语言技术,更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度。

产业是什么?LLM(大语言模型)正在逐步向LMM(多模态大模型)发展。

并且从这期间学术界、产业界所交出的一份份“作业”中,也能印证这一点:

  • Pika1.0发布,刚出道就成行业顶流,引来一众大佬围观;

  • Runway家升级Gen2,分分钟打造高质量小电影;

  • 李飞飞W.A.L.T紧随其后,同样也是发力于此;

  • 谷歌Gemini发布现场,大秀多种模态的联动玩法。

因此,多模态大模型、AI视频生成领域,正是现如今AIGC这波顶流中的顶流,阿里频频在此发力,也就不难理解了。

不仅如此,在岁末年初之际,更是有众多AI大佬将2024年的预测押注于此。

例如Meta研究院Martin Signoux非常直接地表态“再见LLM,你好LMM”,这个预测也得到了LeCun的转发和点赞。

因此,如果要问谁是下一个ChatGPT,可能没有人可以给出准确预判。

但如果问下一个ChatGPT会从哪个赛道来?AI视频生成,就是自带鼓风机的那一个,而在这个赛道里,阿里已经抢占了先机。


返回网站首页

本文评论
比亚迪的两把“火”:卖得火,烧的火_比亚迪点火
布偶比赛冠军微软为什么要求8代以上cpuipad wlan 2017   文 | 花子健   编辑 | 韩大鹏   官方数据显示,7月比亚迪共售出汽车162530辆,同比增长高达183.1%,其中乘用车销售1...
日期:08-20
苹果13少一个gpu「苹果原本想在iPhone 14 Pro上采用全新GPU,难度太大被迫取消」
12月24日消息,十多年来,苹果的芯片工程团队帮助该公司在智能手机和笔记本电脑领域获得了巨大竞争优势。该公司自主设计的定制芯片使其产品更易于使用,或帮助维持更长的使用时间...
日期:12-24
如何高效运营一款APP?这里有些建议(app怎样运营)
  随着科技快速发展及生活水平提高,智能手机在短短几年内就达到了惊人的普及度,变成人们衣食住行娱各方面不可缺少的工具之一。与此同时,移动互联网迅速崛起,多项全新的商业...
日期:04-28
快递小哥弄丢价值5万金碗哭着报警 结局暖心「快递小哥为五毛钱痛哭」
近日,杭州一位快递小哥发现一包裹丢失了,里面是价值5万黄灿灿的金饭碗,快递小哥哭着报警了。马斯克今天在推特说什么幸好,快递小哥报警后,警察帮他找回了金碗。在监控里,出现了这...
日期:12-21
「新性能标杆呼之欲出,全大核天玑9300已完成LPDDR5T性能验证」
来源:中关村在线据中关村在线了解,SK海力士近日在官网宣布,其LPDDR5T移动DRAM已在联发科下一代天玑旗舰移动平台上完成性能验证,速率高达9.6Gbps。容联云竞争对手其实早在今年1...
日期:09-03
大熊猫丫丫已启程回国:专机飞往上海 明天抵达浦东机场「大熊猫丫丫现状」
据央视新闻报道,当地时间4月26日上午,备受关注的大熊猫丫丫已从美国田纳西州孟菲斯动物园出发,前往机场。丫丫将乘坐国际货运公司专机,当天中午左右从美国孟菲斯国际机场起飞(北...
日期:04-27
提升国民平均寿命25岁?创维汽车:让每位车主实现基本百岁人生「创维生产汽车」
3月8日,创维汽车春季技术生态大会举行,在大会上创维汽车也提出了新的口号:让大家活的更久。创维官方表示,创维汽车将为车主提供深度睡眠与深度养生,让每一个车主实现基本的百岁人...
日期:03-08
Distrii办伴上半年整体营收超2亿元,下半年全国8店同开
  日前,"智慧新办公"领导品牌Distrii办伴宣布,截至2019年6月底,办伴上半年整体营收已超过2亿元人民币,赶超2018年整年收入。在行业整体趋冷的大环境下,Distrii办伴上半年仍捷...
日期:12-25
清华大学3d全景展示「清华系面壁智能给大模型接入16000+真实API,开源ToolLLM效果直逼ChatGPT」
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】ChatGPT能力解禁,还是加入插件功能后,性能得到了强化。所有大模型皆是如此。面壁智能给...
日期:08-08
三星S24系列曝光,外观小幅度修改,中杯回归2K屏,三星S23大跳水_三星s214499
由于骁龙8Gen3芯片的提前发布,国产手机厂商都加快了新机发布的节奏,按照行业惯例,三星S24系列,很快也要和大家见面了,虽然三星在国内实现的销量表现大不如前,但是对于自家的高端机...
日期:12-24
全球产量最高的6个手机品牌:苹果第二 华为未上榜「全球手机厂家销量排行榜」
快科技9月4日消息,据TrendForce集邦咨询研究显示,继第一季度全球智能手机产量同比减少近20%后,第二季度产量持续衰退约6.6%,仅2.7亿台。合计2023上半年智能手机产量5.2亿台,对比...
日期:09-05
用户正在和品牌模拟三种亲密关系怎么办「用户正在和品牌模拟三种亲密关系」
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:私域2.0课程,授权转载发布。在《关系飞轮》中我们明确了现在的私域大浪潮是亲密关系所开启,那么什么样的亲密关系能开启...
日期:01-25
曝iphone 16外形最新消息16系列大曝光 外观设计成最大卖点 iPhone
来源:中关村在线iPhone 16系列的爆料消息不断涌现,虽然目前距离发布还有大约10个月的时间,但根据现有信息来看,可以得出一些关于iPhone 16系列的预测。首先,在@Majin Bu在X平台上...
日期:12-01
华为手机mate60「华为Mate 60 Pro推送鸿蒙OS 4新版升级:新增图片对比、优化系统更稳定」
快科技9月26日消息,在华为秋季全场景新品发布会后,华为向Mate 60 Pro用户推送了鸿蒙OS 4.0.0.121版本升级,安装包大小1.57GB,算是比较大的更新。更新日志显示,本次更新新增图片对...
日期:09-26
马斯克老爸取了马斯克的妹妹成为第三任老婆「马斯克他爸:不打算读儿子的完整传记 讨厌被写成反派」
9月28日消息,近日,特斯拉CEO埃隆·马斯克(Elon Musk)的父亲埃罗尔·马斯克(Errol Musk)对儿子的新传记非常不满。他认为这本传记过于戏剧化,错误地将他塑造成反派角色。此外,他不打...
日期:09-28
绿色计算机产业联盟「绿算赋能 青城论数 | 中国绿色算力大会在呼和浩特开幕」
通信世界网消息(CWW)7月2日上午,由呼和浩特市人民政府、中国电信集团有限公司内蒙古分公司、中国移动通信集团内蒙古有限公司、中国联合网络通信有限公司内蒙古自治区分公司主...
日期:07-02
9块9的瑞幸,到底赚了谁的钱?_瑞幸九块九
声明:本文来自微信公众号“深氪新消费”(ID:xinshangye2016),作者:Gawaine,编辑:黄晓军,授权转载发布。9.9的瑞幸和8.8的库迪之间的价格战已经打了挺久了,进度条还在前半段。最希...
日期:07-10
别加价了!曝华为Mate60系列货源充足「华为mate 60」
华为Mate60 Pro于8月29日突然开售,但当天并未出现供不应求的情况。据博主透露,华为Mate60系列整体货源充足,不急的消费者不必加价购买。不过,在二手交易平台上,一些华为Mate...
日期:09-01
聚享娱乐传媒_聚美娱乐布局背后:1.46亿00后消费力增长 愿为偶像付费
  随着互联网人口红的见底,00后已经成为互联网平台聚焦的潜在用户。1.46亿的00后成为新的流量红利,谁能抢得00后市场,谁便抢占了移动互联网的前沿高地。   今年5月,腾...
日期:08-16
英特尔十代酷睿处理器_英特尔第十代酷睿终于来了,这里有几件你关心的事情
  在数天前,英特尔正式向OEM厂商供应第十代酷睿移动版处理器,取名Ice Lake,酝酿已久的英特尔10纳米时代正式拉开了序幕。用英特尔官方的话来说,Ice Lake是一款全新设计的产品...
日期:06-06