您的位置:首页 > 互联网

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

发布时间:2023-05-27 17:57:33  来源:互联网     背景:

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

对于ChatGPT的工作原理,一个常见的解释是根据统计学规律预测下一个词。

但最近一位叫Jacob Bayless的工程师用数学方法得出惊人结论:

若是如此,所需的信息量足以让整个宇宙都坍塌成黑洞。

这一数据量是50000^8000,根据贝肯斯坦上限(Bekenstein bound)原理,如果把这些信息分配到空间当中,所需要的信息密度已经远超宇宙能承受的最大值。

而这仅仅是把数据存储起来的消耗,更不必说还要进行运算了。



而ChatGPT与单纯统计预测的区别,可以做这样的类比:

如果天文学家通过历史观测记录推算出月食的周期,这可以算是统计学。

但当他们总结出牛顿万有引力定律的时候,就已经超越了统计学。

什么是“随机鹦鹉”

一个流传很广的说法,所谓大语言模型实际上相当于一个“随机鹦鹉”——

  • 与我们观察其输出时的情况相反,语言模型只是将其在庞大的训练数据中观察到的语素胡乱拼接在一起,根据概率生成文本,但不清楚文字背后的任何含义,就像一个随机的鹦鹉。
    出自论文On The Dangers of Stochastic Parrots: Can Language Models Be Too Big



这对过去的语言模型,或许确实成立。

比如曾经流行的n-gram算法。

比如当我们在搜索引擎中进行搜索时,出现的联想词就能用此方法实现。



具体来说,下面的三行文本中,第一行纯粹是随机生成,第二行考虑了单词在英语中整体的出现概率,第三行则考虑了单词在前一个词后面出现的概率。

  • n = 0: RECEIVE FALL SURPRISED FRIDAY INGREDIENT…
    n = 1: REPRESENTING AND SPEEDILY IS AN GOOD…
    n = 2: THE CHARACTER OF THIS POINT IS THEREFORE…

不难看出,随着n值的升高,文本越来越接近人类语言。

而n-gram模型根本不需要掌握其中的语义或理解其中的抽象概念,就能生成像模像样的句子。

据此有人猜想,GPT-4会不会也只是一种高级的n-gram呢?

Bayless提出,GPT必须学会抽象才能有如今的效果,至少GPT-4肯定如此。

GPT-4不只是“随机鹦鹉”

要证明这一点,可以先看下棋机器人的例子。

如果有一种下棋机器人,存储了巨量棋谱数据,对于每个棋局都能推荐下一步。

那它就能通过“背谱法”模仿其他任何棋手或程序的下法

比如Stockfish是最先进的国际象棋程序,如果仅通过对战而不看源码,是无法确定Stockfish是否在背谱。

但实际上,包含所有情形和步骤的棋谱数据量可能超过2^154。

宇宙飞船首次登月

揭阳市电子商务协会

而Stockfish的程序只占用了不到50MB的空间,根本不可能存下需要的所有棋谱。

所以Stockfish肯定是通过更高级的方法来实现下棋的。

人类语言的复杂度远超过棋类游戏,因此GPT的数据量更是同理。



仅在是上一代的GPT-3的token字典中就有超过5万token。

如果对每个词都逐一建立统计信息,n-gram模型中n值将高达8000。

届时,需要存储的情景数量将达到50000^8000。

正如文章开头所提到,这简直是天文数字,足以让整个宇宙坍缩。

因此,GPT是“随机鹦鹉”的猜测在理论上得到了一定程度的批驳。

“随机鹦鹉”达不到的高度

仅在理论上进行说明是不充分的,因此研究人员还进行了两个实验,意图证明大模型在学习过程中已经抽象出了算法。

第一个实验关于一道经典的农夫过河问题。

  • 一个农夫有一条船,和狼、羊、菜,农夫要把这3样东西运到河到另一边,农夫每次最多只能通过这个船运一样东西,要防止狼吃羊、羊吃白菜(即不能在没有农夫在的情况下同时在同一岸边),该怎么过?

研究人员将这个问题中的农夫、船、河分别替换成地球人、虫洞和银河系。

狼、羊和菜则分别换成火星人、金星人和月球人。



替换的目的是因为互联网上不太可能出现类似语料,可以判断大语言模型是不是真的掌握了通用方法。

如果GPT不是“随机鹦鹉”,那么它至少不会犯下只有“随机鹦鹉”才会犯的错误。

GPT-4针对替换后的问题给出了正确的回答,GPT-3.5则没有。



但它们并没有犯研究人员预想的“鹦鹉”错误——即在回答中出现狼、船、河等已被替换掉的词语。

回答中使用的句子,也无法在互联网中被检索到。



这些现象都证明了现在的大语言模型的生成方式已经超越了“概率预测”。

第二个实验则是数字排序。

如果让GPT学习数字排序,它们究竟是只会记住给出过的数字顺序,还是真的研究出排序算法呢?



其实只要从GPT的输出当中就可以看出来了。

假如从1-100中随机选择10个数字,并将其顺序打乱,将一共有这么多种情形:



如果再考虑数字的重复出现,又或者数字的数量发生变化,根本不可能存储如此之多的情形。

因此,只要GPT能够针对未知的排序问题给出正确的回答,便可以说明它们是真的研究出了排序算法。

研究人员训练了一款特斯拉前AI总监Andrej Kaparthy发明的语言模型nanoGPT,专门让它做数字排序。

结果显示,随着训练步数的增加,模型给出的数字顺序越来越完美。

虽然在训练步数达到16万左右时突然出现了大量错误,但也很快得到了纠正。

这说明这款模型并不是仅仅根据学习的素材对未知的数字进行排序,而是已经掌握了背后的方法。



这个测试只是在一台笔记本电脑、算力非常有限的GPU上进行的。

更不必说GPT-4了。

参考链接:
https://jbconsulting.substack.com/p/its-not-just-statistics-gpt-4-does


返回网站首页

本文评论
AI巨浪之下,智能质检如何破解客服中心增值密码
  今天,AI就如同水电煤一样,正成为商业的基础设施。在客服领域,AI已经渗透进服务的各个流程之中,除了常见的自助导航服务、语音机器人等前端智能服务,客服质检作为一直隐藏在...
日期:07-14
酷派助力“抗疫”加紧研发智能测温定位追踪器 特定人群可实时监控智能测温
  当前正值新型冠状病毒感染引发的肺炎疫情防控的关键时刻,为最大程度防范疫情扩散,阻止新的疫情传播,对疑似潜伏期人群的监控尤为重要。如何发挥人工智能赋能效用,对特定人...
日期:04-16
哈啰出行闯红灯「哈啰单车“预防闯红灯”专利公布:闯红灯就“叫唤”」
电动自行车闯红灯,已经几乎成为道路特色”,尤其是外卖、快递等人群,更是闯红灯重灾区。为此,哈啰单车也做出了自己的应对方案。创维电视11月15日,据国家知识产权局中国专利公布公...
日期:11-16
Linux 5.16 为 AMD 移动处理器优化,性能提升最高 14%(amd对linux支持)
  12 月 26 日消息,根据外媒 Phoronix 消息,Linux 5.16 内核正式版于近期发布,为搭载 AMD 处理器以及 Radeon 显卡的笔记本电脑提高了性能。根据外媒实测,Linux 5.16 为 AMD...
日期:07-17
卡梅隆力荐!《阿凡达:水之道》CINITY版明日点映:我国自主研发
卡梅隆科幻巨制《阿凡达:水之道》将于12月16日在内地上映,买过预售票的网友周五下班就能去影城观看了。华为新品家用NAS存储值得一提的是,12月14日14:00起,全国超百家CINITY影厅...
日期:12-14
资费偏高、核心功能不突出 3G和我们隔2堵墙
  3G通信业务两年取得了巨大发展,移动、联通、电信三大运营商之间形成了竞争格局。但资费偏高、缺乏核心应用、客户规模不足等问题制约着3G业务的未来。   3G用户突破40...
日期:07-25
电动车还能更便宜吗?电池级碳酸锂再跌:已接近20万元/吨「现在的电动车锂电池寿命怎么样」
4月3日消息,据上海钢联发布数据,今日部分锂电材料报价下跌,电池级碳酸锂跌12500元/吨,均价报23.25万元/吨;工业级碳酸锂跌10000元/吨,均价报19.5万元/吨。值得一提的是,就在两周前3...
日期:04-03
现在可以在Surface Duo 2上安装Windows 详细教程已公布「surface duo刷win10」
微软的Surface Duo智能手机提供了独特的双屏幕和生产力功能,虽然市场表现平平,但使Surface Duo优于普通iPhone或三星Galaxy的另一点是它运行Windows 11的能力(当然是非官方的)。...
日期:10-17
3年时间已过,苹果公司的自动驾驶项目还是没什么进展「苹果自动驾驶2个月16起车祸 测试车队达67辆」
苹果公司正在加利福尼亚进行自动驾驶汽车测试,最新数据显示,它已经增加了更多的驾驶员。新报告显示,有200多人加入苹果67辆车的测试车队的运营,上个月发生了一次非常小的碰撞。...
日期:03-27
特斯拉股价2022年大跌61% 做空者狂赚1000亿「特斯拉股价2018年」
凤凰网科技讯 北京时间12月22日消息,特斯拉公司的做空者终于扬眉吐气了。金融分析公司S3 Partners的数据显示,在经过了多年的错误押注之后,做空特斯拉股票的投资者在2022年将获...
日期:12-22
6年世界第一 超韩国三大厂之和 宁德Q1又赚大了:利润5.5倍增长_宁德德国工厂
快科技4月20日消息,宁德时代今晚发布了Q1季度财报,公司实现营业收入890.38亿元,同比增长82.91%,实现归属于上市公司股东的净利润98.22亿元,同比增长557.97%。报告期内,实现归属于...
日期:04-21
Redmi K60曝光 无线充电和屏下指纹都来了_redmik30是不是屏幕指纹
中关村在线消息:近日,关于Redmi K60系列相关爆料开始多了起来。根据@数码闲聊站,RedmiK60系列根据具体的机型定位不同,将会支持67W快充以及120W快充。Redmi K60和Redmi K60 Pro...
日期:10-10
iOS 16系统绝版?iOS 16.5 RC准正式版推送
苹果今天晨间向开发者和公测用户推出了iOS 16.5 RC,也就是iOS 16的准正式版。更新说明表示,修复了Spotlight无响应、CarPlay无法载入播客内容、屏幕事件无法重置或无法同步等...
日期:05-10
权威消费报告出炉:过半消费者买手机首选京东(买手机消费者的权益)
  10月21日,中国市场信息调查业协会发布了《2019年第三季度B2C电商平台市场消费报告》,《报告》显示,2019年1-8月份,社会消费品零售总额262179亿元,同比增长8.2%,全国网上零售...
日期:07-10
DuckDuckGo浏览器「DuckDuckGo的Mac版浏览器进入公开测试阶段」
DuckDuckGo宣布,其Mac版浏览器应用进入公开测试阶段,它配有大量的隐私保护措施,比常见浏览器的标准隐身模式更进一步。DuckDuckGo浏览器包括专用的YouTube播放器、广告拦截组件...
日期:10-21
在Soul里记录生活百态,他用照片讲述故事(soul聊天记录图片)
  你有多久没仔细品味这座生活的城市了?它的车水马龙,街边的小店和每天遇到的人,记录是制造回忆的方式,热爱生活的人总能看到生活里的每一个可爱瞬间。Soul用户爱吃饼干的大...
日期:07-14
想在抖音原生化获取线索?这2个链路通吃
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:阿爽,授权转载发布。近一年来,欧派家居新客转化用户高达90%,6个月粉丝增长12万+,派单率环比提升27%。转化效果让许多人眼前...
日期:12-26
海信空调总裁直卖惠即将开启,携《越战越勇》回馈新老用户
  在这个大多数人不得不宅在家里的漫长假期,电视重新回归客厅C位,不少综艺节目成为人们休闲的主要选择,央视王牌节目之一《越战越勇》就是其中的代表。随着节目的热播,今年的...
日期:03-14
2011年为百度客户端年:输入法为重点项目
  据消息人士透露,百度公司今年将会加大对客户端产品的投入,重金打造百度输入法的研发团队,以此来抢夺输入法的市场份额,达到占领客户端市场的目的。   输入法属于轻量级的...
日期:07-25
华为阅读&华为视频 | 世界读书日,让我们一起悦读书,悦视界_华为阅读怎么删除
  伏尔泰说:读书使人心明眼亮。   曾几何时,那些精彩小说中存在于字里行间的主人公跃然纸上,仿佛有了勃勃的生命;   又曾何时,你进入了另一个平行宇宙,浸润在泛着油墨香...
日期:10-27