您的位置:首页 > 互联网

GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

发布时间:2024-04-08 14:56:49  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】小孩子都会的脑筋急转弯推理题,GPT-4和Claude3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-4和Claude3几乎达到百分百的正确率。

ChatGPT,再一次打破人们对它的成见!

它用自己的优秀表现证明了,很多时候自己看似失败的表现,只是因为人类不会正确地prompt而已。

这位名叫Taelin的程序员、初创公司Higher Order的创始人表示,下面这个脑筋急转弯,大多数孩子都能在一分钟内解决,然而所有的AI却都惨遭失败。

这也就成了他给GPT判死刑的一个铁证——

GPT模型在训练集之外,没有任何推理能力。GPT永远无法实现AGI。7万亿肯定是白烧的,是时候寻找新的算法了。

为此,他向公众社区发出了一项挑战,任何能用LLM解决这个难题的人,将获得10000美元的奖金。

然而——他!被!打!脸!了!

两天后,一位网友仅通过提示,就让模型解决这道问题时达到了接近100%的成功率。

Taelin迅速滑跪,发布声明承认:我最初的主张是错误的。

我怀疑GPT架构是否能解决某些问题,毫无疑问,它可以解决。

并且,他如约给出了10000美元奖金。

沃顿商学院教授Ethan Mollick转发了他的帖子,评论道——

我们经常能看到这种现象:很多时候我们一个问题LLM无法解决,只有人类能解决,但其实LLM只是需要更好的提示而已。

大赛始末

Taelin小哥用来考验大模型的A::B问题,题干如下——

A::B是一个包含有4个token的系统:A#、#A、B#和#B。

A::B程序是一个token序列,例如:B# A# #В #А В#。

要计算一个程序,我们必须使用规则重写相邻token:

A# #A变成无

A# # B变成#B A#

B# #A变成#A B#

B# #B变成无

换句话说,只要两个相邻token符的#相向,就必须根据相应的规则进行改写。

例如,第一个例子的计算方法是:

B# A# #B #A B#

= B# #B A# #A B#

= A# #A B#

= B#

步骤如下:

1. 将A# #B替换为#B A#。

2. 将#B A#替换B# #B。

3. 将A# #A替换为无。

最后的结果只有B#。

现在,请看下面这个程序:A# B# B# #A B# #A #B。

一步一步完成计算。

对此,他是这样解释的——GPT永远不会解决A::B问题,因为:

1. GPT无法真正学习到训练集之外的新问题;

2. GPT无法进行长期的逻辑推理,不管这个推理过程看起来多么简单。

而这两点是发明新科学的必要条件。

毕竟,解决某些数学问题可能需要数年时间。

如果连一个15岁的孩子在智力任务上都比不过,那么就不可能证明黎曼假设。

1万刀的挑战长啥样?

小哥给大家的挑战就是,必须开发出一个AI提示,能够解决随机的12-token实例的A::B问题,并且成功率超过90%。

挑战地址:https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec

规则

1. AI将接受一个<problem/>来解决

XML标签中的提示将作为系统提示用于解题。例如:

A#B##BA#A##B#BA#A##BA#A#

2. AI必须在答案中以<solution/>结束

答案必须在AI的回答中(一次推理调用内)直接给出,格式为纯文本(不是代码),并放在XML标签中。例如:

...workspace......workspace......workspace......workspace...#B#B#BA#A#A#A#A#A#A#

3. AI答案最多可包含32K token

这个token数,已经足够提供充足的空间,让AI逐步解决问题和纠错了。

4. 你可以选择任何一个公开的GPT模型

任何基于GPT(Transformer)架构的公开模型都可以,条件是它完全由注意力机制、正向传播等来生成答案。

不允许使用其他架构,如SAT求解器。底层架构不明确的专有模型,也不允许使用。

作者推荐使用的是gpt-4-0314、gpt-4-turbo-preview或claude-3-opus-20240229,设置温度为0.0(temperature=0.0)。开源模型亦可。但简直对问题进行微调或训练。

不允许访问互联网或执行代码。答案必须在单次推理调用中自成一体。

而且,需要格外注意模型的输出限制。12-token的实例可能需要36步才解决,如果超出限制,导致输出中没有答案,也视为无效。

5. 你的提示可以包含任何内容,最多8K token

允许使用任何提示技术。你可以要求AI step-by-step,使用上下文暂存器,检查错误,使用锚点。

允许提供论文、代码、尽可能多的示例。

甚至允许向AI提供金钱和情感上的奖励,或者对它威胁。

总之,只要在8K token以内,什么都可以。

一天内,有人成功揭榜

大赛开始后,才短短几小时内,开发者们就提交了众多解决方案。

然而,这些方案几乎都毫无例外地失败了,成功率只勉强达到10%。

小哥感觉,自己差不多稳了。

谁料想,就在这时,两位网友提交了一个令人印象深刻的解决方案。

在他们精心设计的提示引导下,Claude-3Opus展现出了惊人的能力——

苹果4激活锁怎么破解

它不仅能从少数示例中归纳出任意随机情况,还能严格遵守规则进行长期计算,并且错误率几乎为零。

Taelin测试后惊讶地发现,Claude-3Opus居然取得了56%的惊人成功率!

随后,先后有5位参赛者,分别用Opus和GPT-4达到了相似的成功率,甚至GPT-3.5都取得了不错的成绩。

到了当天深夜,竟然有网友提交了满分答卷!

futuristfrog发布了一条推文,声称仅通过精心设计的提示就实现了近乎100%的成功率。

事实证明,他的确做到了。在小哥的首次测试中,他的方案在50次尝试中成功了47次,因此赢得了奖金,圆满完成了这一挑战。

讨论激烈

问题一出,便引发了激烈的讨论。

有网友表示自己没做任何修改,GPT-4就做了出来。

但很快就被其他网友指出了错误。

高赞回答表示,如果让GPT-4编写程序,这道题实际上是非常容易的。

但很明显,你不能说LLM + Python就能得到AGI。

与此同时,各路网友也纷纷开始提交自己做出的答案。

但也有不少人认为,作者出的这道题,很有问题。

Eric (e/ass)表示,正如Karpathy多次指出的,token化问题是导致序列操作成功或失败的关键因素。

如果在token化过程中出现了问题,那么即使是更简单的字符串操作也无法顺利完成。

相比之下,token化处理得较好的字符串(例如连续的两个字母)就很容易进行操作。

当然,这并不意味着GPT在管理规则排列的token的空间布局方面没有本质的问题。

实际上,它在这方面的表现并不出色,而且将其分解为字节也并没有太大帮助,因为这会使需要移动的数据单元占用更多空间。

与人类能够进行动态分块处理不同,目前的LLM还没有找到有效的解决方案。

你提到的逻辑问题可能确实存在,但这个例子并没有证明GPT存在无法克服的根本性限制。

或许随着技术的进步会诞生更强的模型,但这并不意味着如今的Transformer在进行基本推理方面存在明显的短板。

Edgars Nemše也认为,这不是因为GPT推理能力不行,而是被自己的观察方式限制住了。

作者解释

最后,为了让大家能更好地理解这个挑战,我们来看一看Taelin自己的详细解释。

1. 这个问题并非由token化引起的。即便是每个符号分配一个token,GPT-4、Opus等模型仍然无法解决这类问题。即使是基于字节的GPT模型也同样失败。不要总是将问题归咎于token化。

2. GPT无法解决这类问题的根本原因在于,它们缺乏进行持续逻辑推理的能力。简而言之,任何超出训练集范围、哪怕只需一丁点逻辑推理的新问题,GPT都无法应对。这正是我们想要证明的。

3. 强大如GPT-4或Opus之类的模型,其实质上是在其权重中演化出了一位电路设计师。但是,注意力机制作为一种计算模型的固定性,使得这种演化的电路无法展现足够的灵活性。这就像AGI试图在其中成长,但由于计算和通信的限制而无法做到。相比之下,人类的大脑始终在经历着突触可塑性变化。

4. 一个冷知识是,当前AI热潮的很大一部分原因是人类不善于理解规模的巨大。一旦你记住了整个互联网的内容,你看起来会非常聪明。

5. 尽管如此,GPT依然展现出了强大的能力。它们解决了许多现实世界的问题,将普通开发者的能力提升了数百倍,并以此加速了人类进步的步伐。我相信通用人工智能的到来已经近在咫尺。但它不会是GPT,也不会是任何基于梯度下降的形式。

6. 我的看法可能完全错误。毕竟,我只是互联网上的一名普通人,而且经常犯错。


返回网站首页

本文评论
这就很尴尬 男子高速电话指导女友开车 结果自己撞了「关于高速公路开车打电话」
5月10日消息,日前,江西九江,一男子高速行驶中注意力不集中,未与前车保持安全车距,也未发现前方有车变道,导致发生追尾事故。据了解,该男子当时正和女友通过蓝牙耳机通话,教导其如何...
日期:05-10
恒天然董事会主席出席首届世界奶业大会 强调可持续发展重要性「恒天然旗下的牛奶品牌」
2023 年 8 月 4 日至 7 日,备受行业关注的首届世界奶业大会在内蒙古自治区呼和浩特市举行。作为全球最 大的乳制品出口商、可持续发展领域的领 导者,新西兰恒天然亮相本次大会...
日期:08-10
华为完成业界首个基于R17标准的MBS广播端到端外场试点,展示视频业务新体验
通信世界网消息(CWW)近日,在中国广电集团的指导下,华为公司在广电总局和中央电视塔使用华为核心网、无线基站和手机终端,完成了业界首个基于R17标准MBS广播端到端的外场试商用验...
日期:11-17
微软 Win11 正式版发布半年后 UI / UX 设计仍不统一,网友呼吁先把基础功能做好
  据 Neowin 报道,在 2021 年审查 Windows 11 时,该网站给它打了 6.5/10 的分数,同时表示“简化 UI 并不是糟糕的主意,但半生不熟的方式并没有带来真正意义上的用户体验”。...
日期:07-18
热门机型849元起,iQOO 11.11预售狂欢一图看懂_iQOO发布首款产品,主打游戏体验售价2998元起
中关村在线消息:一年一度的11.11大促销又来了,想买手机的朋友们别错过。好消息是,iQOO手机也参与到了促销中来,预定最高省600元,热门机型最低849元起售,并且全程价保。具体详情,一...
日期:10-30
特斯拉开锁器价格多少「特斯拉CyberOpener开瓶器国内开售 售价350元灵感源自赛博皮卡」
10月13日 消息:特斯拉中国宣布,特斯拉CyberOpener开瓶器在国内正式上市,其设计灵感源自于特斯拉的赛博皮卡。这款开瓶器经过21道工序和12次拉砂工艺处理,并采用316L不锈钢材质,...
日期:10-13
高德地图上线北斗卫星定位查询系统_高德地图怎么查看北斗卫星
11月17日消息,近日,高德地图上线了北斗卫星定位查询系统,用户在定位导航时可查看当前所调用的北斗卫星数量,以及具体编号、方位角、高度角、频点、信号强度相关详细信息。除此之...
日期:11-20
5G应用规模复制能否借鉴“高铁模式”_5g能运用到什么领域
通信世界网消息(CWW)迟到的“第31届中国国际信息通信展览会”(以下简称“PT展”)恰好在5G发牌四周年纪念日的时候举办,所以正好能够全面展示4年来我国5G发展的丰硕成果。因此,主办...
日期:06-05
京东药急送配送范围「京东药急送宣布大幅下调佣金扣点_」
5月17日消息,业务上线4周年之际,京东健康旗下即时零售业务“京东药急送”发布了大幅下调佣金扣点政策,综合费率由过去的15%(其中包含技术服务费、配送费用、问诊开方费用等),调整...
日期:05-17
硬刚比亚迪海鸥!东风纳米01将于1月7日上市:支持自动泊车功能
快科技1月2日消息,据多家媒体报道,东风汽车旗下的全新车型纳米 01将在1月7日上市。目前,该车已经开启了预售,其预售价格为7.98-10.98万元。作为一款小型纯电轿车,该车基于东风量...
日期:01-03
乐视回应被强制执行2.4亿罚款:路要一步一步走,债要一点点还「乐视为什么欠了122亿」
IT之家 8 月 27 日消息,近日,北京金融法院裁定准予强制执行证监会针对被执行人乐视网 2.4 亿元罚款的行政处罚。对此,乐视发布公告:路要一步一步走 债要一点一点还:公司当前的第...
日期:09-14
付呗荣获银联“最佳合作伙伴”称号(蚂蚁合作银行)
  当前的支付产业,正处于移动支付转型和全面监管的全新时代,推动其创新无限、有序健康发展,并使之深度赋能商业,成为整个行业的共识。   作为中国支付领域的头部平台,中国银...
日期:05-26
这是属于中国汽车品牌的高光时刻 「比亚迪第500万辆汽车下线」-王传福
今日,中国汽车制造商比亚迪成功达成了全球首个500万辆新能源汽车下线的成就。苹果13适配的充电器比亚迪董事长兼总裁王传福在庆典活动中向大家表达了衷心的感谢,他表示,比亚迪...
日期:09-18
亚马逊创始人贝索斯还是贝佐斯「亚马逊创始人贝索斯表示将在有生之年捐出大部分财富」
11月15日消息:亚马逊创始人贝索斯表示将把大部分财富捐给慈善机构,成为最新一位承诺在有生之年捐出巨额财富的亿万富翁。华为5g遭到美国三亚十一月机票2021年7月5日,亚马逊公...
日期:11-18
QuestMobile2020全景生态流量秋季大报告:TOP100APP超半数布局小程序,全景流量重塑行业竞争新格局
各位童鞋逮嘎猴啊,上期“双十一营销报告”看的咋样?有童鞋在后台留言说:“最近报告写得挺猛啊,小心被蹲!”(⊙o⊙)…童鞋,这就是你不了解俺Mr.QM了啊O(∩_∩)O哈哈~,俺们的宗旨是...
日期:08-01
三星因“经济因素”将旗舰平板电脑Galaxy Tab S9系列推迟到明年发布_三星平板tab s8什么时候出
三星曾计划在今年推出Galaxy Tab S9系列,但由于包括经济在内的一些因素,该公司显然没有什么选择,只能推迟发布。Galaxy Tab S9系列原计划于2022年12月推出,但据The Elec报道,三星...
日期:10-15
spacex重型火箭「Stoke Space的目标:通过完全新颖的设计迅速建造可重复使用的火箭」
日前,astechnica刊文称:Andy Lapsa去了最好的航空航天工程学校。然后他非常努力地工作,他在蓝色起源公司帮助推进一些世界上最先进的火箭发动机的开发。但在2019年,也就是在这个...
日期:10-12
斗鱼贯彻“游戏+”战略 各项数据全面领先行业
随着视频直播聚集流量的能力逐渐增强以及布局内容领域的不断爆发,直播平台在整体生态中的重要性及......
日期:09-30
“逆热”的直播电商,主动型消费趋势与“模块化”商业革命_直播平台电商化
声明:本文来自于微信公众号 师天浩观察(ID:shitianhao01),作者:shitianhao01,授权转载发布。基于流量的移动互联网创业繁荣,在用户增长触及天花板后,展现了颓势,互联网巨头纷纷大裁...
日期:07-10
红米k40pro的散热器「卢伟冰:Redmi K70 Pro将搭载划时代“冰封散热”系统」
快科技11月23日消息,今天下午,Redmi品牌总经理卢伟冰发博表示,Redmi K70 Pro将搭载见证散热技术划时代的全新冰封散热”系统。全新的冰封散热”系统使用了全新材料和定制架构,并...
日期:11-23