您的位置:首页 > 互联网

AI视频何时才能跑出一个“Midjourney ”?_ai创作视频

发布时间:2024-01-05 21:01:54  来源:互联网     背景:

声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:郝 鑫,授权转载发布。

AI视频一跃成为“明日之星”,大厂和创业公司们打得热火朝天。

去年12月,Pika的出现仿佛点燃了AI视频赛道的引线,一个月之内冒出了近十家公司,谷歌、阿里、字节、腾讯竞相下场,不断将战事推向了高潮。

“AI视频的Midjourney V5时刻就要到了”,即将迎来成为生产力的关键时刻。

2022年~2023年,文生图的技术以肉眼可见的速度迭代进化。Midjourney平均3个月一个版本,一路从V1狂奔到了V6,实现了从“面目全非”到“细腻逼真”的里程碑式的巨变。文生图技术以月为单位的进化速度,像一把节奏紧凑的小锤,不停提醒所有AI视频的公司们,留给他们成长的时间,不多了。

(图:网友制作的V1-V6的生成效果对比图,来源X)

ipad套折叠方式

如今AI视频的发展轨迹也正在慢慢向文生图靠拢,“Midjourney V5”成为了一个关键性的临界点:一旦突破,用户将大规模涌入,数据飞轮开始转动,效果日新月异,一步步推动着文生视频从“玩具”蜕变为“生产力”。

从文字到图片、视频的发展一脉相承,从文生图的进化历程中,也可以找寻到AI视频的影子。

当AI视频成为生产力后,才是产业链齿轮开始转动的开端。只有能用起来,才能诞生目标用户群体;只有能留存住用户,产生持续性的付费,才能构建起清晰的商业模式;也只有跑通了商业模式,池子里的企业才能存活下来,用消费端推动供给端,才能盘活整个AI视频产业。

“AI视频行业的生产力”——这恰恰才是现在各路玩家争夺的价值所在。

梦工厂创始人Jeffrey Katzenberg在近期预测,“生成式AI将使动画电影的成本,在未来3年内降低90%,该技术将给媒体和娱乐行业带来彻底的颠覆”。

ai视频如何制作

“未来可能实现以每秒30帧的高分辨率实时生成内容,并且到2030年,可能会实现整个视频游戏的生成 ”,Midjourney首席执行官DaVid Holz判断道。

V5赛点已至,新一轮的排位赛正式打响,何时才能诞生下一个Midjourney?

AI视频迎来“生产力”时刻

实际上,AI视频几乎与文生图同一时期进入到人们视野中。

2023年初,Midjourney带火了文生图,Runway则激起了“人人制作电影大片”的无限遐想。

彼时,看到文生图领域在效果上大放异彩的Runway创始人曾表示:“希望 Gen-1能像 Stable Diffusion 在图像上所做的那样为视频服务。我们已经看到了图像生成模型的爆发,我相信2023年将会是视频之年。”

但显然这个论断下得有点过早。2月,RunwayAI视频编辑Gen-1发布,功能类似于AI版的PS,可通过文字输入进行视频的风格转化和修改;3月,发布文生视频模型Gen-2,支持文生视频、文本+图像生成视频。

宣传视频很酷炫,但具体使用效果却差强人意,出现了时长短、生成画面不稳定、指令理解出错、没有音频、动作不连贯和不合理等等种种问题。

Runway打响AI视频第一枪后,虽未停下脚步,但却在视频编辑工具的道路越走越远,运动笔刷、文字转语音、视频合成等功能,只能算“锦上添花”。Gen-2迟迟没有根本性的突破,也让AI视频沉寂了一段时间。

就在大家快要失去对AI视频耐心的时候,去年12月,Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字节Magic Animate,踏着希望之光来了。

在Pika的官方宣传片中,仅需一句话,就生成了动画版的马斯克,不但神形兼备,而且背景和动作都非常合理连贯,面部一致性也惊人得完美。

(图:Pika1.0宣传视频动图,源自X)

在其官方展示的第一个视频中,生成效果几乎可以达到迪士尼等动画电影公司的质感。

(图:Pika1.0宣传视频动图,源自X)

据使用过Pika1.0产品的用户反映,Pika1.0支持3种方式生成视频:文生视频、图生视频、视频转视频。3D和2D效果确实上了一个全新的台阶,逼真度、稳定性、光影效果都可以吊打Gen-2。

“Pika1.0和Gen-2仿佛不是一个时代的产品”,不少网友都在使用后给出了这样的评价。

Pika们的爆火,要归根于背后基建技术的成熟。其中最重要的就是AnimateDiff。这是一种基于Stable Diffusion文生图模型所搭建起来的动画框架,可让生成的图片直接动起来,字节、腾讯、阿里便是在这个框架的基础上推出了自己的AI视频模型。

当然,除了AnimateDiff的广泛应用,也与大模型多模态的发展,息息相关。

Pika们的出现开启了AI视频的新篇章,AI视频即将迎来“Midjourney V5”时刻。

这里面有两层重要的变化,首先体现在生成层面。

V5阶段,可达到更好的生成效果,在几秒的生成时间内能够达到动作、表情、叙事逻辑的连贯性;更有效的控制方式,对输入指令的理解、遵从,镜头、转场 、风格转化的控制都有了新的提升;更低的资源消耗,能够以更短的时间、更少的算力调用,生成更高分辨率和优质的视频,几秒的视频也可以达到几十秒的效果。

更重要的体现在生产力的突破上。

以Midjourney为例,在V5阶段,成为了UI设计师的设计工具,游戏原画师的助手,跨境电商的商品展示、广告营销的素材库。同样在这个阶段,AI视频也将有可能生成广告、短视频、电影、游戏,成为可以替代编导、导演、演员、设计师的生产力工具。

大模型、扩散模型

两条技术路径的殊途同归

AI视频就像一部电影大片,卖不卖座、叫不叫好,取决于剧本和特效两个重要元素。其中,剧本对应着AI视频生成过程中的“逻辑”,特效则对应着“效果”。

为了实现“逻辑”和“效果”,在AI视频行业中,分化出了两条技术路径扩散模型和大模型。

(图:光锥智能自制)

AIGC火了以后,扩散模型长期占据了图像生成领域的主导位置,这背后要归功于Stability AI的不断开源,一方面让更多的开发者加入到了精进模型的队伍中,另一方面也一手将扩散模型捧到了文生图领域的“王位”上。

如今,AI视频自然也被深深地打上了扩散模型的烙印。大厂和初创公司或多或少都在采访和论文中提到过扩散模型的思路,Pika一批新崛起的公司取扩散模型之长,打造自身的新模型;英伟达、阿里、字节、腾讯等公司在其基础之上,进一步提升模型能力。

在大模型技术路线上,经历过一次改变。大模型面世的初期,AI视频的主要思路是用训练大模型的那套方法,靠大参数、大数据来从头构建一个文生视频的模型,比如2022年就问世的CogVideo就是这类代表。

但随着大模型从单一文本迈向多模态,视频就像之前文字、图像生成一样,成为了从大模型根上长出来的一项功能。从很早的时候,谷歌、微软就在尝试用大模型中Transformer的方法训练和增强现有的扩散模型,但直到谷歌发布多模态大模型Gemini和VideoPoet视频大模型后,大模型生视频这条路才终于看到了曙光。

(谷歌VideoPoet视频生成效果演示)

两条技术路径无好坏,但侧重点不同,扩散模型的核心在于“还原呈现”,重效果;而大模型核心在于“接收理解”,重逻辑。

正是基于这样的特性,导致了走扩散模型路线的AI视频公司在细节刻画和生成效果上优势更强,走多模态大模型路线的公司在连贯性和生成合理性上更好。

Pika联合创始人兼CTO Chenlin Meng认为,可以同时发挥两条路径的优势来构建视频模型,比如GPT一类的大模型可以捕捉上下文,视频中也需要上下文控制生成每一帧从而达到系统的一致性;同时每一帧仍然是一张图片,可以用扩散模型来提高生成效果。

Pika的观点不是个例,行业中越来越呈现出这样的趋势。原因在于,虽然现阶段,Pika、Runway每一次升级都在效果宣传上搏足了眼球,但要落地到广告、电影、营销等实际场景中,还有很大的距离。

英伟达高级研究科学家兼人工智能代理负责人,Jim Fan认为,目前所生成的视频只能被称作“无意识的、局部的像素移动”,缺乏可以一以贯之的时间、空间、行为逻辑来控制生成过程。

有一个例子可以很好地理解当前AI视频发展现状。在X上,一个名叫Ben Nash的网友,做了一个测试,用同样的英文提示词“威尔·史密斯吃意大利面”来测试Runway、Pika的视频生成效果。结果发现,在两个视频中,虽然大致可以呈现出想要呈现的效果,但却出现了“意大利面倒流”、“面被直接吸入嘴里”的滑稽场面。

Runway生成效果

Pika生成效果

Jim Fan表示:“到2024年我们将看到具有高分辨率和长时间连贯性的视频生成。但这将需要更多的‘思考’,即系统2的推理和长期规划(对应System1负责无意识的感觉运动控制)”。

近期Runway也在官网宣布了一项新的长期研究项目“通用世界模型”(General Wold Models),其解释原因称:“我们相信人工智能的下一个重大进步将来自于理解视觉世界及其动态的系统。”

逻辑、思考、推理,或许将成为,2024年AI视频的关键词,两条技术路线的融合也将成为常态。

生产力“解救”商业化

而一旦成为生产力,眼前AI视频面临的商业化困境,便迎刃而解。

生产力工具有两个方向,向上走的专业化路线,和向下包容的大众路线。但现阶段,AI视频行业多数还是以视频剪辑工具的形态向用户开放使用。

“工具即产品”在文生图和AI视频赛道十分普遍,大部分公司选择方法就是,最开始先在Discord上小范围开放测试,到正式开放使用,再到上线网站。

“工具”意味着专业性高、门槛高、操作复杂、上手困难,这就与易上手、操作便捷、体验性高的“产品”拉开了差距。

举一个很典型的例子,你需要花费时间、金钱成本在PR软件上了解每个工具的功能是什么以及怎么使用这些工具,以达到比较好的视频制作效果;但你打开抖音发布视频只需三步,点击加号-拍摄视频-发布,下至幼儿园的孩子,上至60多岁的中老年人,都能覆盖,这就是工具与产品最明显的差异。

生产力未突破的前夜,工具即产品或许还将存在一段时间,但下一步摆在AI视频公司面前的问题很明确:是要坚持走专业工具路线,还是要把门槛打下来,做下一个AI视频版的“抖音”?

在这个问题上,Pika已经率先做出了选择,其创始人郭文景在采访时表示:“我们开发的并不是电影制作工具,而是为日常消费者打造的产品——我们虽然有创造力,但并不是专业人士。”

落实到商业化上,郭文景称Pika最终可能会推出分层订阅模式,让普通的付费用户也能享用更多的功能,计划通过这种方式,让Pika与其他竞品分出区别。

生产力能力欠缺的AI视频工具也无法长期留住用户,不断地产生付费,从而形成健康的商业模式。现在的现状是,用户出于猎奇,或免费尝鲜,或抱着试一试的心态订阅一个月,到期过后,该视频工具就被抛之脑后。

这对创业公司的打击是巨大的,没有持续性的收入,不能自造血,就得依赖融资,哪天融资断了,公司也就维持不下去了。放眼到整个AI视频行业来看,如果作为身在其中的个体都生存不下去,又谈何行业未来前景。

如果一个行业只有单一的工具,没有更多的落地场景,也无法形成完整的生态闭环。就像现在,用户在AI视频工具上浅浅地停留一下,然后把大把的流量引向了社交平台。

(图:源自X)

比如,马斯克跳舞、蒙娜丽莎跑步等大量搞怪视频,一度席卷了TikTok;使用Runway、Pika等视频工具生成的视频,通过用户在X、TikTok、油管的分享一炮走红,获得了巨大的流量,有人甚至已经靠这种方式完成了流量变现,而作为工具的提供方,却只能沦为社交平台的“嫁衣”。

打通工具和场景的壁垒,作为参考案例,国内抖音已经开始在尝试。

剪映的相关AI功能一上线就和抖音实现了联动,并引发了一波抖音扩图大赏,“让你意想不到的AI扩图”一话题挑战,达到了2亿多的播放量,甄嬛打篮球、星黛露秒变星黛驴、皮草美女化身狼人,AI是惊喜还是惊吓,引发了大量的讨论。

一旦成为了生产力,整个产业链条的消费端将开始出现购买力,消费端的需求推着供给端进化,至此,AI视频才算彻底“活了”。


返回网站首页

本文评论
美女高管誓言抗争到底
今年四月加入动视-暴雪董事会并于上月被任命为公司事务执行副总及首席传播官(CCO)的Lulu Cheng在社交平台回应说,最近有许多关于微软-动视收购案的揣测,那些指责该收购有损竞争...
日期:11-27
配备MicroLED屏幕的Apple Watch Ultra传闻将于2026年推出_micro led apple watch
据市场研究公司Trendforce称,众所周知,苹果正在开发使用下一代microLED显示屏的Apple Watch Ultra的更新版本,但由于制造问题,该设备再次被推迟。显示器分析师罗斯·杨(Ross Youn...
日期:07-06
中国广电携手产业合作伙伴完成RedCap端到端能力测试「广电网络终端是什么」
通信世界网消息(CWW)近日,为加速推动RedCap(Reduced Capability,轻量化5G)技术商用、协同芯片/终端/网络产业链完善适配广电5G创新业态、增强中高速物联网业务能力,中广电移动网络...
日期:07-13
梳理:三大运营商的6G布局_三大运营商用的是谁的5g设备
梳理:三大运营商的6G布局 通信产业网|2023-07-10 15:01:22作者:崔亮亮来源:通信产业网【通信产业网讯】(记者 崔亮亮)近日,在2023MWC上海展会上,工信部总工程师赵志国提出,要加快5G...
日期:07-10
张朝阳物理课上模仿“奥本海默”造型 解析电影中原子弹爆炸原理
近日由诺兰执导的电影《奥本海默》热映中。9月8日下午,在《张朝阳的物理课》线下十九课上,创始人、董事局主席兼首席执行官、物理学博士张朝阳还原了奥本海默的西装形象,以一如...
日期:09-11
Opera新版本集成ChatGPT:一键生成网页内容摘要
近日,Opera浏览器在测试版尝试整合了ChatGPT,推出了一个基于该AI的工具功能。在测试版中,用户可以在侧边栏随时呼出ChatGPT,并通过它来一键生成当前正在阅读的网页的内容摘要。d...
日期:02-13
匀思电商助力创业者玩“赚”拼多多,“拼”出价值!
  拼多多,对于商家而言可以说是一个“香饽饽”的存在,拼多多是当前消费者主流的购物APP,其拼团方式吸引了众多消费者的青睐,消费者能够通过与家人或朋友、同学拼团的方式,以更...
日期:01-12
Q1中国游戏出海收入排行:PUBG Mobile、万国觉醒、荒野行动前三(10月出海手游榜:《荒野行动》收入榜持续领跑)
  5月9日消息 今日,App Annie发布了2020年一季度中国游戏出海收入前十强。收入统计商店包含 iOS 与 Google Play,统计市场为全球除中国大陆以外市场。   榜单前十位分别...
日期:07-14
上海高考分数线公布 :本科405分 官方:不会对成绩进行排名_上海高考分数线高不高
据上海市教育考试院官方微信上海国子监发布”消息,2023年上海市普通高等学校秋季招生本科各批次录取控制分数线经审定公布如下:本科录取控制分数线:405分;特殊类型招生控制分...
日期:06-23
三大运营商运动轨迹「大揭秘!三大运营商护航亚运展现了哪些“黑科技”?」
通信世界网消息(CWW)融科技之力与力量之美。9月23日,农历秋分节气之时,万众期待的杭州第19届亚运会将正式拉开帷幕。这是继北京、广州之后,亚运会第三次在中国城市举办。自成功申...
日期:09-25
三星W24系列上架:15999元16GB 1TB的配置「三星w2019256g」
三星“心系天下”W24系列两款手机——W24和W24 Flip——于9月15日正式发布,售价分别为15999元(16GB 1TB)和9999元(12 512GB)。该系列手机的配置与稍早发布的Galaxy Z Fold 5和Fli...
日期:09-16
拒绝“下车拍照上车睡觉” 百度地图带你“看到美”更要“玩得美”
  世界那么大,是梁静茹给你的勇气选择“说走就走”吗?是百度地图!   12月10日,2019百度地图生态大会顺利召开,发布“新一代人工智能地图”生态全景,宣布成为中国最大的智能...
日期:11-03
MCN出海实录:寻求内容与商业的本土化突破|MCN专题论「mcn koc」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:大可,授权转载发布。在过去的几年中,客观市场环境的影响让一批初步探索海外内容及电商市场的MCN机构陷入了低谷与...
日期:02-25
苹果收购英国创业公司DataTiger 加强数字营销能力
苹果零售店   北京时间2月15日消息,苹果公司已经收购了英国创业公司DataTiger。这笔交易有望加强苹果的数字营销能力,使其更加贴近顾客。   DataTiger表示,公司的技术可...
日期:09-23
一汽大众视频广告「一汽大众为中控屏弹广告致歉:并非广告 是对车主关怀」
近日,一汽大众ID.6行驶中,车机系统弹出厂商推送的广告一事,引起网友热议关注。9月28日,针对一汽大众汽车导航弹窗一事,一汽大众相关负责人向媒体回应,车机消息推送是一汽大众面向...
日期:10-04
Flyme不会变!魅族官方明确不改名:只是征集中文名_魅族名称
快科技11月9日消息,今天上午,魅族官方宣布要为Flyme征集中文OS名称。三星s6发布会结果此事引起广大网友热议,尤其是老魅友反应较大,认为Flyme是魅族的灵魂,不应该改名。很多网友...
日期:11-11
oppo手机有卫星wifi吗「OPPO Find X7系列将支持卫星通信技术:支持听筒/免提双模卫星通话」
12月27日 消息:OPPO在最新的Find X7系列技术沟通会上,宣布OPPO Find X7系列成为OPPO首款支持卫星通信的智能手机。与传统的卫星对讲机模式不同,OPPO通过研发的卫星天线方向图...
日期:12-28
特斯拉y在美国售「特斯拉为多卖车拼了:在美国推出84个月(7年)分期」
快科技7月22日消息,根据特斯拉美国官网显示,其在当地最新推出了长达7年的84个月分期。84个月分期的首付为4500美元,年利率6.39%,相比72个月分期每月支付贷款减少11%。该举措将买...
日期:07-22
分析称:比特币能源浪费教训给AI未来提供了经验「比特币消耗了能源产生了什么」
文章概要:1. 比特币挖矿消耗大量能源,AI也可能如此2. 比特币已经为AI行业开辟了绿色能源利用之路3. AI相比比特币能给世界带来更多价值8月28日 消息:随着对人工智能系统的兴...
日期:08-28
荣耀100手机开箱:首发骁龙7 Gen3、2499元起,颜值拍照怎么样?_华为荣耀100
在最近发布的一众旗舰产品里,荣耀也发布了自家数字系列旗舰,也就是荣耀100系列。不过和其他手机用顶级芯片、拼跑分有所不同,荣耀的顶级性能跑分一直是Magic系列专属,数字系列则...
日期:12-02