您的位置:首页 > 互联网

Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测

发布时间:2024-01-23 22:02:26  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

AI 理解视频不能依靠在像素空间中预测。

在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。

在2024世界经济论坛的一次会谈中,图灵奖得主、Meta 首席 AI 科学家Yann LeCun被问到了这个问题。他认为,虽然这个问题还没有明确的答案,但适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在抽象的表征空间中预测,而不是在像素空间中。

一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人Daphne Koller。她的研究领域主要是人工智能及其在生物医学科学中的应用。她指出了理解因果关系对于构建未来AI系统的重要性。

以下是视频的文字版本:

大热度团购

主持人:我在世界经济论坛中参与过一些讨论。他们说,我们的数据快用完了,真的吗?网络上没有那么多了?

Daphne Koller:是真的。

主持人:但是自动驾驶汽车可能提供更多数据。Yann,你觉得呢?

Yann LeCun:我完全同意 Daphne 的观点。当然,如果我们致力于 LLM,或者说是自回归 LLM,我们可以看到它们的发展正趋向极致。毫无疑问,数据资源正变得越来越少,我们基本上已经使用了互联网上所有的公共数据。小型 LLM 使用十万亿 token 进行训练。以每个词大约2字节计算,我们用于训练的数据总量大约是2*10¹³ 字节,用普通人的阅读速度来说,读完这些数据需要15万到20万年。

想象一下,一个孩子通过眼睛看到了多少东西。比如一个四岁的孩子,我们来试着量化一下 Ta 生活中所看到的信息量:每秒视神经传输大约20兆字节的数据,在孩子的头四年的生活中,醒着的时间有16000小时,每小时3600秒,计算可以得出有一千兆字节的信息量。由此可以看出,一个四岁的孩子所看到的信息总量,是最大的大模型所消化的数据量的50倍。

四岁的孩子比我们拥有的最大的 LLM 要聪明得多。Ta 积累的知识量看似更少,但这是因为形式不同。实际上,对于这个孩子来说,Ta 对世界如何运作有着很丰富的认知,而我们今天还不能用 LLM 做到这一点。我们还需要发明一些新的科学方法和技术,来让未来的 AI 系统像孩子一样,能够利用这些看到的信息。这将需要一些科学和技术上的突破,可能会在一年、三年、五年、十年后发生,很难说出准确的时间,因为这是个挑战。

主持人:确认一下我是否理解了你的意思。可获得的文本数据量会增长,但并不是无限的。而我们能输入到这些机器中的视觉数据量却是巨大的,远远超过文本数据。

Yann LeCun:我刚才提到的16000小时的视觉内容,相当于 YouTube 上30分钟的上传量。这意味着,我们拥有的数据远远超过我们能处理的量。问题在于,我们如何让机器从视频中学习呢?我们并不知道。

主持人:那么如果下一步是要处理视频输入,需要什么样的新架构呢?显然大型语言模型并不是好的选择,它的构建方式并不适合处理视频,那我们现在需要构建什么?

Yann LeCun:大型语言模型或者一般的 NLP 系统,通常是用这种方法训练的。拿一段文本,然后故意删掉一些地方,接着用一个巨大的神经网络来重建文本,也就是预测那些被删掉的词,也就是通过删掉一些词来破坏文本。像 ChatGPT 和 Lama 这样的模型都是这样训练的。你只需删掉最后一个词就能训练它们。从技术上讲实际上更复杂,不过大体就是这么个意思,训练这个系统来重建输入中缺失的信息。

一个显而易见的想法就出现了,为什么我们不用图片来试试呢?拿一张图片,通过移除一小部分来损坏图像,然后训练大型神经网络来恢复它。但这并不奏效,或者说效果并不好。这方面已经有很多尝试,但都不太成功。对于视频也是一样。

我已经研究视频预测九年了。我一直在尝试预测,就是向系统展示一段视频,然后训练它预测接下来会发生什么。如果系统能做到这点,它可能就能理解世界的一些基本规律,就像文本系统试图预测下一个词一样。它得能理解句子的含义,但这也做不到。

主持人:你的意思是,你拍了一段视频,你让视频里的人拿着笔把手举高,然后放开,我就能预测笔会掉下来。但现在机器并不能做到这一点?

Yann LeCun:主要的问题在于,你的笔有一些特殊的摆放方式。当你把它丢下去的时候,它会沿着特定的轨迹下落。我们大多数人无法准确预测轨迹是什么,但可以预测物体会掉下来。婴儿大概要花九个月的时间,才能理解没有支撑的物体会掉下来。这种直觉上的物理知识,婴儿九个月就能学会,那我们怎样让机器也做到这一点呢?

主持人:等一下,我想问个可能有点傻的问题。如果想要这些技术有效果,并持续革新,那就需要它们能够理解视频,毕竟数据都在视频里。但我们自己都不完全理解视频,这个矛盾该如何解决呢?

Yann LeCun:其实目前还没有真正的解决办法。但目前最有希望的,至少是能用于图像识别的东西,说出来可能会让大家惊讶,并不是生成式的。

所以最有效的模型不是生成图像的,不是重建,也不是直接预测。它做的是在一个抽象的表征空间中进行预测,就像我无法准确预测你手中的笔会如何掉落一样。但我可以预测它将会掉落。在某种抽象的层面上,一支笔具体在哪里以及它的确切摆放方式和其他具体细节,我都可以做出预测。

所以,我们需要在抽象表征空间中预测,而不是具体的像素空间。这就是为什么像素空间的预测都失败了,因为它太复杂了。

Daphne Koller:但是这不仅仅是关于视频的问题。我认为婴儿学到的另一件事是因果的概念。他们通过对世界的干预,并观察发生的事情来学习的。而我们的 LLM 还没有做到这一点。它们完全是预测性引擎,只是在建立关联,没有真正理解因果关系。而理解因果关系,对于人类与物质世界的交互极为重要,尤其是在我们尝试将数字信息与实体世界联系起来的时候。这是当前模型中缺失的一项很重要的能力。这种能力在实际应用的模型中缺失,在计算机进行常识推理的能力中也是缺失的。当我们尝试将其应用于其他领域,无论是制造业、生物学还是任何与物理世界互动的领域时,这种能力也都是缺失的。

Yann LeCun:在具身系统中,它实际上是有效的。有些系统是建立在对世界的模型上的。比如,这里有一个表示在时间点 t 的世界状态的模型,这里是我可能会采取的行动。想一想,在时间点 t+1世界的状态会是什么?这就是所谓的世界模型。如果你有了这种世界模型,你就可以规划一系列行动来达到一个特定目标。

目前,我们还没有任何基于这一原理的 AI 系统,除了非常简单的机器人系统。它们的学习速度并不快。因此,一旦我们能够扩展这种模型的规模,我们就能拥有能理解世界、理解物理世界的系统。它们可以规划,可以推理,可以理解因果关系。因为它们知道一个行动可能产生什么效果。它将以目标为导向。我们可以利用这种规划给它们设定目标,这就是人工智能系统的未来架构。在我看来,一旦我们搞清楚怎么实现这一切,就不会有人还愿意用目前的方式。

原视频地址:https://www.weforum.org/events/world-economic-forum-annual-meeting-2024/sessions/the-expanding-universe-of-generative-models/


返回网站首页

本文评论
雷丁汽车再被执行2976万!总额已经超过1.2亿元_雷丁汽车百度百科
快科技1月7日消息,据媒体报道,因涉及买卖合同纠纷案件,雷丁汽车集团有限公司新增两则被执行人信息,累计金额2976多万元。据悉,雷丁汽车集团有限公司目前共存在11条被执行人信息,总...
日期:01-07
同程旅行启动鸿蒙原生版App开发,首期上线将覆盖出行全产品线_同程旅行软件下载
(原标题:同程旅行启动鸿蒙原生版App开发,首期上线将覆盖出行全产品线) 近期,旅行领域App同程旅行与华为签署鸿蒙生态协议,并正...
日期:11-09
战胜马来西亚队 王者荣耀项目中国队拿下亚运电竞项目首金_王者荣耀马来西亚比赛
在杭州亚运会电子竞技项目的首个金牌争夺战中,中国队以2:0的比分完胜马来西亚队,成为王者荣耀亚运版本的冠军。贤济联盟互联网经济发展的意义是什么钱存银行卡里会变多吗这是...
日期:09-27
豆瓣将在个人主页等位置展示帐号IP属地_豆瓣账号主页链接
7月26日,豆瓣官方发布公告,将陆续上线在“个人主页等位置展示帐号IP属地”的功能。相关功能将于即日起面向部分用户进行测试,预计在本周内面向所有用户正式上线。该功能上线后,...
日期:07-31
对话TikTok女装品牌Go.G.G:上线5个月如何做到英国销售额Top1?
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:赵思尧,授权转载发布。TikTok 英国小店虽然一度被后起的东南亚市场抢占风头,但开通英国小店一直是很多商家进入美国、...
日期:02-11
中国十六个特大城市「中国百座大城市名单首公布:7个超大城市、14个特大城市」
不久前,国务院第七次全国人口普查领导小组办公室编制的《2020中国人口普查分县资料》(下称《分县资料》),公布了全国县级单位的人口数据。其中,683个城市(包括直辖市、计划单列市...
日期:10-14
最新华为折叠屏上市时间「华为全新折叠屏旗舰上架 现在就能预约抢购」
中关村在线消息:华为将于近期发布竖向折叠屏手机P50宝盒的升级版Pocket S,目前这台折叠屏新机已经上架京东商城,并开启了预约抢购活动,感兴趣的朋友可以提前预约,点击链接即可了...
日期:11-02
特斯拉获得在墨西哥建造超级工厂许可_特斯拉澳洲工厂
12月13日 消息:墨西哥Nuevo Leon州政府最近宣布,电动汽车制造商特斯拉已获得联邦环境部的土地使用许可证,计划在该州的北部边境建造一座“超级工厂”。Nuevo Leon州政府估计该...
日期:12-13
打破折叠屏影像痛点!OPPO Find N3上手体验,随手一拍都是大片_oppo折叠屏手机是什么型号
在过去,折叠屏手机一直面临一个问题,那就是在追求轻薄手感的同时,不得不在硬件、影像、屏幕尺寸等方面做出让步,这个原因也导致了很多用户在入手折叠屏的时候有所顾虑。而随着折...
日期:10-27
聚焦搜索,数智采购|2021第一届百度爱采购数智大会圆满落幕
  近年来,我国政府大力推动实施供给侧改革与互联网+模式,给企业发展带来了新一轮的利好机会,而中国正处于传统产业数字化转型的重要阶段,工业品B2B行业面临发展路径升级的历...
日期:05-28
首款Pro之作如何树立越级标杆?iQOO Neo8 Pro体验_iqooneo8怎么样
首款Pro之作如何树立越级标杆?iQOO Neo8 Pro体验 迷你世界海上狙击华为mate50手机性价比最高值得入手电商金融服务这种病近期高发...
日期:05-31
周源回应知乎匿名功能问题:会做出改变_知乎的老板周源
凤凰网科技讯 6月22日消息,知乎周源发文就此前媒体对知乎匿名功能问题作出回应,他表示,匿名功能是社区早期的产品机制,我们的初衷是希望维护一个开放讨论的社区环境,用户在分享个...
日期:06-22
移动公司卫星「预算1.419亿元!中国移动启动超级基站卫星网升级集采」
通信世界网消息(CWW)9月1日,据中国移动官网,中国移动超级基站卫星网升级工程项目正式公开招标。根据公告,此次采购内容为超级基站进行升级改造所需的卫星通信设备及相关服务,本期...
日期:09-01
马斯克谈阿斯巴甜致癌:如果阿斯巴甜致癌我早死了「马斯克阿斯伯格症」
7月17日 消息:近日,世界卫生组织将阿斯巴甜列为可能的致癌物,这引发了人们对于阿斯巴甜是否安全的关注。虽然存在一定的风险,但普通人无需过度担忧。只有每天摄入超过安全限制...
日期:07-18
想让英伟达对显卡降价不可能!消息称黄仁勋参与公司所有运营 对市场了如指掌
快科技7月31日消息,很显然没有比黄仁勋更了解显卡市场的一举一动了,所以那些想要英伟达降价的口号,也只能喊喊了。据外媒报道称,英伟达联合创始人兼CEO黄仁勋几乎参与了公司日常...
日期:07-31
努比亚Z50S Pro引爆酷安:热度超越其他1英寸安卓旗舰_努比亚z205g版
努比亚Z50S Pro引起了广泛关注,在酷安热度排行榜上名列第三,超越了其他国产旗舰手机。根据官方的预热信息,努比亚Z50S Pro采用了35mm定制大光圈镜头,并且配备了全新传感器,实现了...
日期:07-18
钱小乐:以优质服务成为用户心目中的“信贷知己”_钱小乐正规吗
在竞争激烈的网贷市场中,钱小乐凭借着其卓越的服务质量和创新的科技,成功地跻身头部行列,与市面上众多金融服务产品相比,钱小乐优势和特点显著,并得到了大量用户的好评。钱小乐具...
日期:10-23
近几年持续亏损 广汽菲克申请破产_广汽菲克股东注资
10月31日,Sterantis官方网站宣布,广汽菲克、广汽集团和Sterantis的股东已批准一项决议,允许广汽菲克在遭受损失时申请破产。Sterantis在其2022年上半年的账目中注销了其在广汽...
日期:11-02
“公路高铁”理想MEGA超级充电实测:峰值功率522kw  充电12分钟续航500公里
快科技10月24日消息,今日有博主发布了理想MEGA的首个超级充电实测视频。结果显示,理想MEGA实测峰值功率可达522kw,充电80%仅需11分钟(充进去77度电),与此前理想官方宣称的数据较为...
日期:10-24
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。替代注意力机制,SSM 真的大有可为?为了用更少的算力让扩散模型生成高分辨率图像,注意力机...
日期:12-11