您的位置:首页 > 互联网

阿里终于杀入AI视频生成!一键直出音画同步国风视频,还能读懂中国古诗

发布时间:2024-09-21 16:09:43  来源:互联网     背景:

声明:本文来自于微信公众号 AI新榜,作者:左卡 石濑,授权转载发布。

阿里终于杀入AI视频生成赛道!

9月19日云栖大会上,阿里CTO周靖人宣布通义万相全面升级。其中最大的亮点之一便是通义万相全自研AI视频生成大模型同时上线手机端和PC端,并且面向公众免费开放。

不用排队、也不用到处借号了,直接登陆通义万相官网或下载通义App即可体验。(相关链接已同步至文末)

颇有诚意的是,相比其他模型发布“先占位后迭代”的思路,阿里这次还一次性放出了两个创作入口:文生视频和图生视频。

看来是憋了个大的。

据官方介绍,通义万相AI目前能够一键生成最长5秒、每秒30帧、720P分辨率的音画同步视频,并且在核心架构Diffusion+Transformer的加持下,支持复杂与大幅度运动生成,对中式元素针对性优化了概念理解和生成能力,被第一波实测的网友和媒体誉为“更懂中国风”的大模型。

提示词:古风女孩,穿着古代服饰,头发在空中轻灵的摆动

官方演示Demo

据“AI新榜”观察,与以往发布的AI视频应用相比,通义万相是少见的能够同时生成视频和音频的应用。同赛道上别的产品往往单次只能生成视觉信息,需要通过后续的一套工作流添加配音或音效,才能制作出真正声画并茂的视频。

而这次,通义万相再次拉低了AI视频制作的门槛:生成的视频都自带声音,直接省去单独制作音效的环节。

更懂中式元素、使用更简单的通义万相在生成效果上表现如何?在竞争激烈的AI视频生成赛道上,通义万相的优势又在哪儿?“AI新榜”第一次时间进行了一番实测。

一键直出音画同步视频,AI视频生成结束默片时代

通义万相PC端目前每天登陆送50个灵感值,支持约10条视频生成。而手机端App则开放了每日不限次使用,量大管饱,因此我们这次实测选择在手机端App上进行。

测试分为文生视频和图生视频两个部分,主要从人物运动、音效生成、模型擅长风格、复杂语义理解等方面着手进行评测。

1.文生视频

风景与动物运动类

提示词:枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。

提示词:由巨大绿树组成的神秘森林,树枝像无尽的藤蔓向四周蔓延,森林中的光线从缝隙中洒落。

提示词:白色狼群在冰川峡谷中穿行,北风呼啸声,镜头跟随。

首轮我们就给通义万相上了上强度,投喂了一首以意境取胜流传千古的古诗给它,没想到最后生成的视频还真有两下子:诗中的主要视觉要素一个不落,整体风格也相当有“中国味”,自动配上的音效也都符合画面要求。

同首古诗让早前同样被认为擅长国风元素的可灵生成的画面效果是这样的:

在这里我们使用的是仍支持一定数量免费生成的可灵1.0

此外,通义万相在处理写实类风景和动物腿部方面表现出色,音效生成也与画面高度契合。

要知道,AI视频生成在处理动物运动时,尤其是腿部动作方面非常容易出错。虽然放在大屏幕上看,狼群移动还是存在残影等画面瑕疵,但在手机上观看,效果已经足够令人惊喜。

国风人物

通义万相在生成古风人物上的表现可谓是惊艳。人物走路和转身的动作都十分流畅,画面风格也是满满江湖武侠气息,随视频生成的音效也很不错,仔细听似乎还能听到人物的脚步声。不过提示词中的“一把长剑”直到视频末尾才展现出来,这位“江湖侠客”最后的眼神也没能够聚焦在“镜头”上。

提示词:一个年轻潇洒的江湖侠客,身着传统的劲装,背负一把长剑,面容飘逸洒脱。背景是茂密的山林和古朴的酒肆,身旁放着一个酒葫芦,增添了自由和冒险的气氛。

另一个视频生成的效果也很不错,能够理解提示词中诸如“云鬓轻挽”等古风词汇,唯一不足之处就是画面中人物拿的那把折扇“走着走着就散了”。

提示词:身着飘逸长裙的女子,云鬓轻挽,手持折扇,在古色古香的园林中悠然漫步,眼神中透露出一丝淡淡的忧伤。

2.图生视频

任何一个新的AI视频工具都逃不过这张经典表情包测试:

但通义万相却“拒绝”了我们的“玩梗”邀请,想着也许是图片人数过多,我们测试了几个有名的“单人”表情包。

盖茨比举杯但突然瞬移到草地:

火车卧铺陶喆秒变草地陶喆:

苹果信息发送失败为什么

黑人思考变草地散步:

从视频生成的效果来看,除了存在人物不一致、动作奇怪等AI视频工具通病问题,通义万相的脑洞还是不错的,就是最终生成的结果好像是跟“草地”过不去了,同视频一起生成的声音也存在“高度一致性”——伴随着草地画面出现的一阵鸟叫声。

为了摆脱“草地困扰”,我们给这些图片加了一些简单的提示词。

提示词:人物吃薯条

提示词:人物将杯中酒一饮而尽

视频最终生成的效果有点“惨不忍睹”:我们想让陶喆老师吃点薯条,结果吃了块蛋糕,陶喆老师的面部表情也是生成得有点抽象;小李子这边稍微好一点,除了在“喝酒”这个动作时面部稍有变形,整体的面部一致程度还可以。

加了提示词之后视频的音效总算不是“鸟语花香”了,虽然仍有些突兀,但总体来看还是符合视频画面的。

阿里正式入局,新一轮大厂AI视频争夺赛打响

从综合表现来看,阿里通义万相在中式元素、复杂语义理解等方面展现了其差异化优势,但也存在和其他模型一样的通病:生成的人物/动物运动不符合物理规则,需要多轮抽卡。

但好在的是,在AI视频抽卡率普遍较高的当下,在手机端使用通义万相AI视频模型还是免费管饱的,所以目前可以放心大胆进行测试和体验。

此外,或许由于功能刚上线,目前通义万相生成视频的速度还很慢。实测下来,每支视频生成时间为10分30秒,系统最多允许同时提交3个视频在后台排队一一进行生成。

音效生成方面虽同质化比较严重,但总体而言表现尚可。不过如果提示词包含的画面元素过多、或视频设定环境复杂就容易出现视频内容与音频完全不相关的情况,甚至部分测试视频生成的音效可以说是“噪声”不为过。

经向官方证实,通义万相AI视频功能目前是自动生成声音的,无法通过相关操作关掉或是通过提示词取消音效。

可以说,音效生成的加入在特定类型上(尤其对视频质量要求不高的用户来说)能简化视频制作流程,但一旦音频生成效果不佳则多少有些“画蛇添足”了。

从产品层面上来看,在手机端上和AI生视频在同一入口的是早前在国内引爆C端创作热潮的“全民舞王”(如今已整合为“全民舞台”)。

无论是“全民舞王”还是AI生视频功能,可以看到通义都致力于在产品层面上降低普通用户的使用门槛。

进入通义AI生视频功能界面,“热门创意”允许用户轻松一键丝滑做同款,“灵感扩写”则用于优化提示词,为普通用户提供使用灵感。

国内已有多家大厂在AI视频生成领域有所布局并推出了相关产品。除了早前海内外破圈的快手AI视频模型可灵已“产品化”落地应用外,还有字节跳动的即梦、百度的AI成片工具、腾讯的云端视频创作平台“腾讯智影”。

阿里早前凭借通义App里的“全民舞王”功能引爆了一波讨论,但仅单点的图生视频玩法并不足以持续保持热度。

如今在可灵已经进化到1.5版本,各项功能如“去水印”“视频分辨率提升”“镜头控制”已逐渐补齐,阿里通义才发布自研AI视频生成模型,看起来姗姗来迟,但在AI视频生成底层技术仍待进化的情况下,国产AI视频生成的头把交椅会鹿死谁手还真不好说。

通义万相AI视频生成PC端地址:

oled柔性屏龙头股票

https://tongyi.aliyun.com/wanxiang/wanxvideo


返回网站首页

本文评论
蚂蚁开源ATorch 、 Lookahead两项大模型技术_蚂蚁ocean base
1月18日 消息:最近,蚂蚁开源了两项与大模型相关的新技术:ATorch 和 Lookahead。ATorch 是一个大模型分布式训练加速扩展库,可实现深度学习自动资源动态优化和分布式训练稳定性...
日期:01-18
无人驾驶公司Oxa融资1.4亿美元 希望利用AI改善通勤体验
文章概要:1. Oxa是无人驾驶领域的初创公司,完成了1.4亿美元C轮融资2. 它与Beep合作,在佛罗里达推出自动驾驶班车3. Oxa认为自动驾驶单人轿车难以改善拥堵状况9月4日 消息:无人...
日期:09-04
RedCap:从能用到好用还有多远?_red-clad
RedCap:从能用到好用还有多远? 通信产业网|2023-06-13 09:34:47作者:崔亮亮来源:通信产业网note20下一代【通信产业网讯】伴随5G行业应用规模发展向纵深推进,5G模组价格高、功耗...
日期:06-13
GitHub又火了一款AI工具 DUSt3R :2张图2秒钟3D 重建
划重点:⭐️ 一款名为 DUSt3R 的新工具火爆 GitHub,能在2秒钟内通过2张图片完成3D 重建。⭐️ DUSt3R 在单目 / 多视图深度估计以及相对位姿估计任务上表现出色。⭐️ 作者团队采用...
日期:03-04
线上吐槽涨价,线下大排长龙:餐饮业“烟火气”回来了?
声明:本文来自于微信公众号 全天候科技(ID:iawtmt),作者:张超,授权转载发布。周六晚上8点过,陈婷和两个朋友终于踏进了位于上海静安区愚园路的一家火锅店。此时距离她拿号排队,已...
日期:03-12
特斯拉任命朱晓彤为汽车业务高级副总裁 使他成为特斯拉四大高管之一
4月7日消息:据路透社消息,特斯拉周四提名联合创始人和前首席技术官 JB Straubel 担任董事会成员。如果 Straubel 在 5 月 16 日的年度股东大会上当选,他将取代前日本养老投资...
日期:04-07
庆祝MONA M03上市大火!何小鹏亲自为员工送温暖 喜不自禁
快科技9月4日消息,汽车博主@小吕斯基最近分享了一段访问小鹏汽车总部的经历。为了庆祝小鹏MONA M03上市后取得的显著销售成绩,小鹏汽车的创始人何小鹏亲自为员工们送上了精心...
日期:09-04
双胞姐妹失散多年给儿子取名竟一样:感动无数观众_双胞胎姐弟失散20年是什么电视剧
在3月23日晚的东方卫视某节目中,迎来了一对充满传奇色彩的双胞胎妈妈——孙叶和刘艳。她们虽长达30年未曾相见,却保持着出奇一致的发型和头发长度,甚至连给儿子取的名字都相同,...
日期:03-25
曝三星S24 Ultra主摄升级:HP2SX主摄有惊喜
据最新消息,三星Galaxy S24 Ultra手机将升级主摄传感器,虽然仍为2亿像素,但型号为ISOCELL HP2SX,相较于Galaxy S23 Ultra使用的HP2有较大的改进。此前,爆料人@i冰宇宙在微博中表...
日期:09-02
九号电动滑板车t15_首发到手价仅需1199元!九号电动滑板车C15潮酷上市
  近日,九号公司正式推出了一款专为女性打造的电动滑板车——九号电动滑板车C15,售价1399元,首发到手价仅需1199元,它的出现填补了女性电动滑板车市场的空白,为女性在挑...
日期:04-02
三星s21国行版本「曝三星Galaxy S23国行版不再推送One UI 6测试版,下一次直接正式版」
三星 Galaxy S23 系列国行版将不再推送 One UI 6 Beta 版本,下一次升级将直接推出正式版。近日有博主透露了这一消息。在此之前,三星 Galaxy S23 系列国行的 One UI 6(安卓 14)...
日期:10-25
三体太扯了「《三体》没能狂飙」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者 | 李秋涵 编辑 | 魏佳,授权转载发布。“《三体》都已经完结了?”近日,《三体》开启大结局点映,即花18元,就能将最后10集...
日期:02-09
三星9220_三星9220怎么硬格
是一款由韩国三星电子公司推出的智能手机,于2011年5月在中国大陆上市。该款手机采用了4.3英寸超大屏幕,基于Android 2.3系统,搭载Samsung Exynos 4210 处理器,配备了800万像素后...
日期:05-31
秦力洪:蔚来不会也不可能倒闭、可放心购买体验_蔚来汽车秦力洪简历
快科技11月18日消息,近日有网传消息称,蔚来汽车发展遇到了困境,可能会倒闭。在广州车展开幕当日举行的广州汽车产业发展大会上,蔚来联合创始人、总裁秦力洪就此进行了回应,其表示...
日期:11-18
iOS 11被抛弃!Apple Music等苹果全家桶服务将停止支持老系统
如果你的手机还停留在iOS 11或者macOS 10.13(High Sierra)等经典”系统,那么要注意了。一份曝光的苹果内部文档显示,公司计划于5月关闭这些旧版系统的苹果支持服务,包括Apple Mus...
日期:04-05
京东数科中美两地AI研发双擎再发力 6篇论文入选全球顶会AAAI
  日前,人工智能的顶级学术盛会AAAI2020在美国纽约举行。其中,处于国内AI实力第一梯队的京东数字科技集团,有6篇论文被AAAI收录,在AAAI论文整体录取率仅有20%的情况下,难能可...
日期:01-15
ai绘图模式内部绘图「Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测」
声明:本文来自于微信公众号量子位 | 公众号 QbitAI,作者:一水,授权转载发布。AI圈,再次开卷图像生成。一连串进展扎堆:8月21日,Ideogram正式推出2.0版本,声称文本渲染能力更强。...
日期:08-26
联通世界,创享美好智慧生活_链接世界幸福,新联引领万物互联新时代
  2019年6月28日-29日“为优而来,品赢全球——2019亚马逊全球卖家高峰论坛暨直采大会”,在杭州白马湖国际会展中心隆重举行。新联合众(北京)科技有限公司(简称新联合众)携...
日期:09-11
北大等发布最新AI智能体Jarvis-1,制霸我的世界_我的世界智能ai模组
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】北大、北邮、UCLA和BIGAI的研究团队联合发布,智能体新突破——Jarvis-1.智能体研究又取...
日期:12-08
机构预测:2024年智能显示器市场迎来爆发期_显示器行业趋势
通信世界网消息(CWW)根据市场调查机构Omdia最新发布的《台式显示器情报服务》报告显示,全球显示器市场正迎来新一轮的增长高峰,特别是在高刷新率游戏显示器和智能显示器领域。报...
日期:07-26