您的位置:首页 > 互联网

能生成视频的软件「与Sora一样能生成视频、图像,还能一次解读100万数据!」

发布时间:2024-02-27 10:33:30  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。

因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。

LWM是一种通用的多模态自回归模型,与前不久谷歌发布的Gemini1.5一样,一次性可精准解答100万tokens的视频、文本,例如,LWM可以正确回答1小时YouTube视频中包含500多个视频片段的问题。

开源地址:https://github.com/LargeWorldModel/LWM

论文地址:https://arxiv.org/abs/2402.08268

huggingface:https://huggingface.co/LargeWorldModel

此外,LWM可以精准检索100万tokens文本中的内容,同时与Sora一样具备文本生成视频、图像的能力。整体性能非常强悍,目前在github获得超6000颗星,有纯文本、视频、图像等多个版本模型可使用。

视频sop制作

LWM模型介绍

在传统的注意力机制中,例如,Transformer架构中使用的自注意力,模型需要计算序列中每个元素对于其他所有元素的注意力得分,这就会面临两大难题。

1)内存需求上升:模型需要存储每一对元素间的注意力得分,会随着序列长度的增加而急剧增加内存需求。

2)计算复杂度:当序列很长时,会导致巨大的算力负担。

LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。

Ring Attention论文地址:https://arxiv.org/abs/2310.01889

尽管Ring Attention减少了每个片段的直接交互范围,但仍然允许信息在序列中传递,保持了模型对长距离依赖的捕捉能力,减少了长序列的处理损失度。

这也是LWM能处理高达100万tokens数据的原因之一。

视频sop制作

Ring Attention主要功能

RingAttention是通过使用循环结构来扩展,注意力机制的上下文大小。传统的注意力机制在计算上下文相关性时,通常只关注序列中相对较近的位置。

菲尔·斯宾塞重申xbox游戏计划

但在处理长序列时,远距离的上下文信息也可能对模型的理解和推理能力至关重要。RingAttention通过引入环形结构来解决这个难题。

具体来说,使用了一种环形缓冲区来存储先前计算的注意力权重。模型可以在计算当前位置的注意力时,考虑到之前计算的位置的信息,从而无限扩展了上下文范围,主要功能模块如下。

环状分组:该模块将输入序列划分为多个环,每个环中的位置与其他环中的位置之间进行相关性计算。通过这种划分方式,可以有效降低计算复杂度。

环内注意力:在每个环内,该模块计算位置之间的相关性,并根据相关性的权重对位置进行加权。这样,每个位置都可以获得来自同一环的其他位置的信息。

环间注意力:这个模块负责计算不同环之间的相关性。通过将每个环的表示与其他环的表示进行比较,计算它们之间的相关性,这种跨环的交互有助于在不同环之间传递信息。

环间投影:在环间注意力之后,该模块将每个环的表示投影到一个共享的表示空间中,有助于进一步整合不同环之间的信息。

通过这些关键模块的协同工作,Ring Attention实现了对长序列的高效处理和建模,并为训练大规模模型提供了高效方法。

LWM训练流程与数据

第一阶段是语言模型的预训练,主要扩展语言理解的上下文长度。LWM使用了Books3数据集, 从32,000tokens逐步扩展到100万tokens,同时针对长序列的聊天任务进行了微调。

第二阶段是多模态的预训练,将视觉信息整合到语言模型中。LWM使用了大量包含图像和视频的公开数据集,例如,LAION-2B、COYO-700M、WebVid10M等。

同时训练图像-文本、视频-文本等多种对齐格式。视频以每秒4帧的速度提取关键帧,特别针对32K、128K和1M tokens长度进行了优化训练。


返回网站首页

本文评论
联想g455配置_联想g45笔记本配置
联想G455是一款运行Windows 7操作系统的笔记本电脑,被广泛用于家庭、办公和学习等场合。它具有出色的性能、优秀的图形处理能力和良好的音频效果,是一款深受消费者欢迎的笔记...
日期:05-31
华为MateBook」,E 二合一笔记本/MateBook E Go引爆618 「移动办公学习利器
这世上两全其美的事物一般都受到人们的喜爱,这也是因为人们经历了太多「鱼与熊掌不可兼得」的事情,知晓世事难以两全。就好比作为现代白领、学生在工作学习时必备的笔记本电脑...
日期:09-12
京东、苏宁、拼多多、小象优品发起一届“新零售”主题618
  今年的618购物节可谓是盛况空前,年中大促的序幕早已拉开,各大电商平台摩拳擦掌,卯足全军之力准备出击。与以往不同的是,今年的618电商节“新零售”形式更加凸显,不仅东道主...
日期:01-24
荣耀Play6C正式发布 起售价1099元_荣耀play6+128g多少钱
中关村在线消息:今日荣耀高性价比机型荣耀 Play6C正式发布,并且已经开启预售,起售价为1099元,将于10月13日正式发布。硬件配置方面,荣耀Play6C配有6.5英寸LCD屏幕,支持90Hz高刷以...
日期:10-16
边缘计算盒子要怎么选?
  1、性能需求:边缘计算盒子的性能应该与用户的应用需求相匹配。对于普通用户来说,使用云支点智能TV-Box机顶盒,家用宽带是天然产生闲置带宽的条件,让普通家庭用户也能参与网...
日期:08-21
具备AI功能的家教机成交额同比增128%-京东《AI家教机趋势趣味图鉴》
来源:中关村在线怎么写读后感300字在数智化时代,新鲜科技的力量正逐渐渗透进各大领域,其中在家庭教育层面,AI家教机的出现和不断更新,推动了电子教育产品的突破和迭代,带来了学习...
日期:09-19
976.AI官网体验入口 虚拟ai女友免费聊天机器人在线使用地址_虚拟女友 会话型人工智能yomemi
976.AI是一款为满足用户欲望而设计的无限制AI聊天服务。在这里,你将进入一个没有任何限制的世界,通过语音、文本和图像与我们的虚拟美女和聊天机器人进行双向交流。在这个极富...
日期:02-06
印媒:OpenAI 可能会在 2024 年底破产 ChatGPT 需要巨大的运行成本
8月14日消息:ChatGPT 去年发布后,成为增长最快的人工智能平台之一。然而,近几个月来,最初的欣喜若狂的人数增长已经停止。OpenAI 是把人工智能(AI)带入寻常百姓家的公司,但它可能...
日期:08-14
特斯拉一夜暴跌2700亿 上周股价曾上涨9%「特斯拉股价跌了吗」
据报道,特斯拉曾经进行了大幅度的降价。但最新发布的季度新车交付量数据显示,降价只带来了轻微的销量增长。非诚勿扰节目是假相亲吗投资者担心特斯拉这种做法只会对未来的盈利...
日期:04-04
miui11最后开发版「MIUI 14即将登场 产品经理:目标是重回巅峰」
今日消息,小米产品经理魏思琪与网友互动时表示,MIUI 14目标时重回巅峰。此前MIUI负责人金凡称MIUI 14目标之一是要做最精简轻巧的旗舰手机系统 。不难看出,这次MIUI 14将会对系...
日期:11-25
或支持北斗卫星消息-华为李小龙疑似抢先上手华为P60系列_华为李小龙手机
按照往年节奏,华为很可能在今年第一季度推出新一代P系列旗舰——华为P60系列,甚至近期有传闻称华为有望在2月底的MWC大会上推出该系列机型。虽然官方截至目前并未公布相关实质...
日期:09-20
IBM、Adobe等9家公司加入白宫人工智能安全承诺
9月13日 消息:最近,Adobe、IBM、Nvidia等9家人工智能公司向白宫承诺,它们将开发安全可靠且值得信赖的人工智能,这是拜登政府与人工智能公司达成的第二项此类协议。这些公司加入...
日期:09-13
为Win12做准备?微软Win11 23H2将集成AI助手:GPT4免费用「msi集成工具」
快科技7月18日消息,微软日前确认今年4季度推出Win11 23H2,这是Win11第二个年度更新。Win11 23H2具体有哪些功能升级,现在还不好说,但它会集成微软的Copilot,它很容易让人想到多年...
日期:07-18
福布斯中国联合易观分析发布最具创新力企业榜(2018福布斯中国最具创新力企业榜)
  10大赛道50家企业上榜   疫情改变了人们习以为常的生活和工作的模式,但无法改变人们对创新的追求和渴望。尤其进入后疫情时代,科技创新仍持续焕发出活力和生机,引领全球...
日期:10-27
gpd win3预购_GPD WIN 3 游戏掌机开启预售:i5-1135G7+16GB 内存,4799 元
  2 月 26 日消息 根据 GPD 掌机官方的消息,全球首款玩主流 3A 游戏大作的滑盖直板掌机 GPD WIN 3 开启预售。   2020 年 12 月 GPD 宣布了全球首款 Windows 10 直板掌...
日期:07-16
华为分布式存储全闪新品重磅发布:降低SSD单盘价格!
快科技8月26日消息,闪存存储具备的高性能、低功耗、高可靠的优势,让很多企业选择闪存存储进行数据处理。口语训练的技巧主要有在日前举行的第三届华为数据存储用户精英论坛上,...
日期:08-26
小米3和魅族mx3_小米和魅族哪个性价比高
小米3和魅族MX3是中国智能手机市场的两个知名品牌。这两个品牌各自拥有优势,并且在市场上都具有一定的竞争力。在本文中,我们将从不同的角度来比较小米3和魅族MX3。1. 设计小...
日期:05-31
闲鱼卖二手平台抽成吗「闲鱼卖二手也要收费了,大额高频用户每笔订单抽成 1%」
据闲鱼最新通知,从2023年6月6日起,针对在平台开展高频且高额交易的卖家将收取软件服务费。根据通知中的费用相关内容,当月成交订单数量大于10件且累计成交金额大于10000元时,超...
日期:05-16
淘宝商城事件影响未平 腾讯当当挖角商家初奏效
  10月19日消息,随着对新规作出进一步调整,淘宝商城商家围攻风波也暂告一段落,但对腾讯QQ商城及当当网等竞争对手而言,争抢中小商家的挖墙脚举动已经奏效。   在淘宝商城遭...
日期:07-24
敞篷 剪刀门 国产跑车MG Cyberstet被曝31.79万起售 这价格香不香?
快科技8月20日消息,日前,MG Cyberster全国统一零售价被曝光。图片显示,MG Cyberster全国统一零售价为31.79万元起,上方的MG网站地址或可证明该图片存在一定的真实性。不过,有媒体...
日期:08-21