您的位置:首页 > 互联网

让Sora多飞一会儿

发布时间:2024-02-22 15:08:25  来源:互联网     背景:

【】2月22日消息,OpenAI的文生视频模型Sora案例视频集一经推出,就成为科技圈的热门话题。

继ChatGPT后,Sora的文生视频能力再次惊艳AI圈子,大有不谈Sora就out了的氛围。

Sora文生视频效果惊艳

根据OpenAI官方给出的介绍,Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。

OpenAI发布了48个视频,这些均是由Sora模型(Creating video from text)通过对文字理解而生成的视频。

第一个视频就是根据文本:“一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。”(Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)生成的视频。

Sora出现之前,在文生视频领域,美国初创企业Runway和Pika被认为是视频生成赛道的领先者。

然而,Sora的出现,瞬间秒杀了“领先者”们。

从公布的视频来看,Sora通过文字生成的视频表现明显突出:

首先,时长更长。Sora生成60秒视频,Pika是3秒,Runway是4秒;

第二,Sora的视频有多角度镜头,分镜切换符合逻辑,并且视频主体移动时与背景保持高度稳定和流畅;

第三,Sora的视频对光影反射、运动方式、镜头移动等细节处理得更好。

总之,就是Sora生成的视频极大地提升了视频的“真实感”,让人看了感觉像是真实拍摄的。

继“有图有真相”破碎后,视频也不再等于真相了。

目前,OpenAI尚未向公众开放Sora,仅对部分研究人员和学者开放测试资格。

国内用户无渠道参与试用Sora。

但这也不妨碍科技圈大牛们对Sora的研究兴趣。

OpenAI 官网上公开的信息,48个Sora文生视频案例、Sora的技术报告《Video generation models as world simulators》(中文译《把视频生成模型作为世界模拟器》)成为各方人士研究Sora的主要抓手和窗口。

多少有些隔岸旁观、盲人摸象的感觉,短短几天,对Sora的关注和讨论就形成了多个“派别”。

技术派:挖掘Sora背后的技术逻辑

国外社交媒体上的AI大牛,国内微博技术大V、知乎技术博主们纷纷发文分析Sora的核心技术。

这些分析主要根据OpenAI给的技术报告《Video generation models as world simulators》及报告中罗列的32篇技术文献提及的技术而来。

技术大牛们挖掘出的Sora模型创新主要有2个关键:

一, Spacetime Patch(时空Patch)技术

技术报告原文:LLMs have text tokens, Sora has visual patches.

解放思想,从大型语言模型中获得灵感。

如同LLM将各种类型的文本内容转化为Tokens后,实现对大规模文本内容的训练;

用Spacetime Patch对所有类型的视频内容进行统一表示,进而能够对视频生成模型进行大规模数据训练。

图片来源于《Video generation models as world simulators》

值得注意的是,Spacetime Patch除了包括视频信息元素的空间信息还有时间信息。

图片就是单帧的视频,把图片按正确的发生时间顺序显示出来,就将是一个逻辑正确的视频。

二, Diffusion Transformer(DiT,扩散型 Transformer)架构。

技术报告原文:Sora is a diffusion transformer。

和其他文生视频产品所用的底层架构不同,Sora 使用的是Diffusion Transformer架构。

Diffusion Transformer论文(26号论文)的作者之一William Peebles,现在是OpenAI工程师,负责开发Sora。

《Video generation models as world simulators》罗列的技术文献

Sora能获取现有的静态图像并从中生成视频,还能获取现有视频,进行扩展或填充缺失内容。

技术大牛们认为,Transformer强在前后文的理解和保持连续性,这让Sora在时间轴上的延伸性非常出色,可以生成开头不同但结尾完全一致的视频片段。

三星lgd oled屏

哲思派:人工智能的能力到了什么阶段?

以周鸿祎为代表的国内技术大佬们对AI能力进化的思考又进一步。

Sora生成的视频发布后,周鸿祎就称“Sora意味着AGI实现将从10年缩短到两三年”。

此后,短短3天时间,周鸿祎已发布7个小视频来阐述自己对Sora的思考。

周鸿祎认为,“Sora应该还是模拟了人类去观察世界、描绘世界和表现世界的方法。”

“Sora表面上是一个文生视频的工具,实际上是一个现实世界模拟器。它也不仅仅是用来模拟现实世界,它意味着通用人工智能对这个世界的理解能力又一次得到了突破。GPT对人类语言和知识的理解达到了一个突破点,而除了人类的语言和这个世界的人类之间做交互的知识之外,这个世界还有很多规律,人工智能对物理世界的规律缺乏理解的话,那么它是残缺的,不可能真正变成通用人工智能。”

“Sora做出的视频之所以让人感觉真是,不是画面有多优美,是因为让人类看起来,所有的动作是符合这个世界的运行规律的。它对这个世界的规律有了一个比较更为完整的了解。这就说明人工智能的能力又上了一个台阶。”

搞钱派:售卖课程、追涨股票、投资建厂搞芯片

现在,针对Sora热搜引发的“搞钱派”也分不同段位。

最基本的一类是,根据信息差来卖课、卖账号的。

Sora根本还没对外开放使用,现在就来这样搞钱实在太无厘头了。

然而,还真有人买单。

某电商平台26.6元的学习包,居然已经售出10多份。

第二类是追涨AI概念股搞钱的,人也不少。

春节后A股开门红,AI相关概念股全线上扬,Sora板块多模态模型概念、ChatGPT、虚拟人、AIGC、算力等相关概念均有所上涨,算是给A股的朋友们一个新年红包。

最高段位的,还是直接针对大模型“核心能力”—— 算力出奇迹进行投资的富豪们。

上图从左往右分别是Sora使用 1 倍资源、4 倍资源、16 倍资源训练时的生成效果。

图片来自《Video generation models as world simulators》

可见,算力,仍然是卡住AI发展脖子的角色。

就在Sora发布后,软银创始人孙正义正寻求筹资1000亿美元(约合人民币7000亿元),用于创立一家AI芯片企业,旨在挑战英伟达的消息传出。

OpenAI创始人 Sam Altman筹建7万亿打造AI芯片帝国的计划也被曝出向美政府寻求政策支持。

找差距、威胁派

就在Sora露面后的2天,2月18日,国家互联网信息办公室关于发布第四批深度合成服务算法备案信息,该批共有266个算法通过备案。此前三批分别有41、110、129个算法通过备案。

这意味着截至目前,国内总计已经有546款深度合成服务算法获得备案。

追问“国内何时有自己的Sora?”“国内企业距离赶上Sora还要多久?”的声音毫无意外的再次响起。

当然,Sora生成视频太逼真而引发犯罪不可控的担忧声也不少,生成的视频是否会影响到人身安全、社会稳定、企业安全等等。

迎接“Sora们”开放,法律、社会、技术等层面是否都做好了准备?

如IDC分析师所言,生成式AI产品不可预测的未来:具体哪些公司能在什么时间点推出与 Sora 类似的产品,不可预测。当前 Sora 生成的是1分钟的视频,下一步何时能生成2分钟5分钟以上的视频,不可预测。

但是,对于个人而言,生成式AI产品已经在潜移默化的改变我们的生活方式,每一个人都可以认真考虑该类产品如何能够助力我们的生活与工作。

还是那句话,每一项新技术进入人们的生活时,总是伴随着兴奋和质疑。那么就让Sora们 多飞一会儿!


返回网站首页

本文评论
收购TikTok未果!微软CEO吐槽:这是我干过最奇怪的事「苹果采购副总裁因在 TikTok 发表低俗言论而离职」
9月30日消息:据彭博社报道,苹果公司的采购副总裁Tony Blevins在最近的TikTok视频中对自己的职业发表了粗俗的评论,因此他将离开公司。Blevins出现在TikTok创作者Daniel Mac的...
日期:09-30
Google Gemini Ultra版本在哪申请 谷歌AI大模型聊天机器人入口_谷歌智能机器人对话
Google Gemini是一个由 Google AI 开发的大型语言模型聊天机器人。它使用了一种新的语言模型技术,能够生成更流畅、更自然的语言。Gemini 还能够进行更复杂的对话,并理解用户...
日期:12-08
机遇与挑战并存 三方面着手保障人工智能安全发展「人工智能机遇和挑战」
通信世界网消息(CWW)随着全球人工智能产业的蓬勃发展,一场AI浪潮正在席卷而来,当前互联网已经进入万物皆可AI的时代。我国目前已建成全球规模最大、技术领先的网络基础设施,数据...
日期:07-22
快手修订违背承诺实施细则 发货违规最高罚款5000元「快手电商违规处罚规则」
9月28日 消息:9月27日,快手发布《【违背承诺】实施细则(商户)》修订公告,对发货违规”、“消极处理售后”、“商责纠纷违规”进行调整。本细则于2022年9月27日修订,2022年10月5日...
日期:09-29
了4399游戏盒_网游页游一应俱全!4399游戏盒新版界面曝光
近日,有消息称国内最大最全的单机游戏客户端软件4399游戏盒将全面改版。除了原有的单机游戏与在线小游戏外,还将推出网游专区及网页游戏专区。据知情人士泄露的截图来看,新版4...
日期:07-27
金山26核心员工持20%股份 完成西山居股份转让_金山西山居股票
  4月11日上午消息,金山软件(03888.HK)对外宣称,旗下最大游戏工作室“西山居”已经正式完成股份转让工作。根据金山软件2011年1月24日披露的交易信息《发行Westhouse股份及贷...
日期:07-27
美股周一:苹果创历史最高收盘价,特斯拉连涨12天「苹果美股市值」
6月13日消息,美国时间周一,美股收盘主要股指全线上涨,标普500指数和纳斯达克指数创一年多以来的最高水平。投资者等待本周公布的美国通胀数据和美联储关于利率的决策。道琼斯指...
日期:06-13
甲骨文MySQL 5.5发布 MySQL中文新时代来临(甲骨文数据库和mysql)
  2010年12月17日,在甲骨文公司官方网站公布5.5 GA消息18个小时后,甲骨文公司MySQL全球技术总监Philip Antoniades在上海甲骨文MySQL大会上宣布MySQL 5.5 正式GA,向中国社区...
日期:07-25
苹果推送 iOS 17.1 RC2:仅面向 iPhone 15/Pro 机型,修复烧屏等_ios17.8
IT之家 10 月 21 日消息,苹果公司以测试为目的,今天仅面向 iPhone 15、iPhone 15 Pro 系列四款机型,推送了第 2 个 iOS 17.1 候选版本。ebay盈利来源根据苹果官方日志,本次更新...
日期:10-22
好乐买与美丽说达成深度合作 发力社会化营销
  8月2日消息,中国领先的B2C网上鞋城好乐买与国内女性时尚电子商务社区今日正式对外宣布,双方正式达成深入合作,主要针对好乐买女鞋的社会化营销,并且之后会在市场推广、用户...
日期:07-22
微软Android手机收入达Windows手机5倍
新浪科技讯 北京时间5月28日上午消息,花旗分析师沃尔特·普里查德(Walter Pritchard)周五在一份报告中指出,微软通过HTC销售的每一部Android手机获得5美元收入。 业内人士估...
日期:07-28
董宇辉俞敏洪今晚再次合体直播 李国庆喊话俞敏洪:保护好董宇辉
12月16日消息,随着东方甄选小作文”事件的持续发酵,李国庆发视频喊话俞敏洪:老俞,你要保护好董宇辉,你要是保护不好,我可要下手了。iphone13现在45天才发货iphone12pro一直显示充...
日期:12-17
为所有Chrome浏览器用户提供云端防钓鱼方案,谷歌宣布迁移到增强安全浏览
通信世界网消息(CWW)谷歌公司今天宣布在Chrome浏览器中,将弃用标准的安全浏览(Safe Browsing)功能,在未来几周内,将所有浏览器用户迁移到增强安全浏览(Enhanced Safe Browsing)功能上...
日期:09-08
三项根本性新能力最为关键-网易有道CEO周枫谈大语言模型_有道创始人周峰
近日,网易有道CEO周枫在个人公众号发文,探讨大语言模型技术带来的三项根本性新能力。他指出,在大模型带来的新能力中,涌现能力、作为基座模型支持多元应用的能力和支持对话作为...
日期:10-01
“多巴胺穿搭”火爆全网,捧出又一个“涨粉黑马”「多巴胺爆棚」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:小龙果,授权转载发布。“多巴胺穿搭”刷屏全网今夏第一股热浪来袭,而比气温飙升更快的,是爆火出圈的“多巴胺穿搭”。高亮的配...
日期:06-03
2022年国庆档总票房破13亿:《万里归途》档期票房「2021国庆档总票房43.7亿」
灯塔专业版数据显示,截至10月6日15时06分,2022国庆档(10月1日-10月7日)总票房(含预售)突破13亿 ,当前档期票房前三影片分别为:1、《万里归途》8.83亿(累计9.40亿);拼多多二季度营收230....
日期:10-09
今晚执行!国内成品油价将迎三连跌:回吐之前涨幅 油价回年初水平
12月19日24时(也就是今天),国内成品油新一轮调价窗口将开启。机构普遍预计,国内成品油价将迎来三连跌”。据梳理,今年以来,国内成品油价格已经进行了23轮调整,呈现13涨9跌1搁浅”格...
日期:12-19
我找到了3块钱发快递的路子,却不希望你用。_3块钱的快递丢了赔多少
前两天,差评君请了几天年假,去感受了一下阳光、微风和古镇。 还拉了一箱子的特产回来,准备寄回老家。 结果,我正在蒙头包快递的时候,隔壁同事突然神秘兮兮递给我一个不知名的小程...
日期:01-02
台积电产能什么时候恢复「汽车也靠不住了,台积电们要如何“过冬”?」
出品 | 虎嗅科技组作者 | 丸都山编辑 | 陈伊凡头图 | 电视剧《大时代》过去一周,全球芯片行业在产能问题上,发生了一百八十度的大转弯。首先表态的是三星电子,这家公司上周五表...
日期:04-14