您的位置:首页 > 互联网

苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错

发布时间:2024-10-12 20:50:54  来源:互联网     背景:

IT之家 10 月 12 日消息,近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。

图源 Pexels

周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。IT之家注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。

例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小。”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”

上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。

研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。

苹果壁纸美女无水印

这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


返回网站首页

本文评论
荣耀为什么悄无声息的就登上了销量第一?_荣耀每年销量
当国产手机品牌在这热辣的夏天接连不断发布新机时,很容易给人一种错觉:越“抛头露面”的品牌越能在出货量、销量、市场占有率上拔得头衔。   这些厂商不管是在营销方面还是...
日期:08-20
一加11概念机官宣:MWC亮相真机_一加概念手机
一加近日又曝光了旗下的概念机,一加11背部的蓝色灯带贯穿机身,相机圈同样也有相同的灯带环绕。新机将在下周开展的MWC 2023中正式亮相。骁龙870和天玑1000+跑分美国苹果公司库...
日期:03-01
百度熊掌号“权威问答”走进北京60个献血点 科普献血知识
近日,国家卫生健康委“健康中国政务新媒体平台”、北京市红十字血液中心举办“今日......
日期:09-29
一加Ace 2 Pro再夺安卓性能排行榜冠军_一加是安卓
一加Ace 2 Pro在9月份的安卓性能排行榜上再次夺得冠军,其在安兔兔测试中的得分高达166万。值得注意的是,该产品的性能表现同样在8月份的安卓旗舰手机性能排行榜上也位居第一。...
日期:10-03
Google 将于年底关闭 Duplex AI 网页版服务
12月5日消息:谷歌正在关闭Duplex AI网页版,它是一个由人工智能驱动的服务,可以帮助用来简化订购食物、购买电影票等的过程。根据谷歌支持页面上的说明,Duplex AI网页版和它所启...
日期:12-06
抓住新年的尾巴,华为视频伴你共度元宵!
  俗话说,过了正月十五,年就过完了!   觉得时间太快不过瘾,   华为视频为大家准备了一套过节欢乐套餐,   一起抓住新年的尾巴,开启元气满满的2019!   华为视频芒果专...
日期:04-24
买手电商,小红书的“新解药”?_小红书the brand
声明:本文来自于微信公众号 伯虎财经(ID:bohuFN),作者:灵灵,授权转载发布。抖音有兴趣电商,快手有信任电商,小红书也有买手电商了。小红书披露的数据显示,截至11月3日,参与小红书电...
日期:11-10
高德世界地图正式上线!基于北斗定位:国外实时精准导航
快科技9月2日消息,今天高德地图官方正式宣布,高德世界地图”正式上线,在国外也能定位、导航了。据介绍,高德世界地图基于北斗系统的全球定位能力,实现境外路线规划与导航服务。此...
日期:09-02
【机圈周报】Redmi K70 至尊版新机发布 华为 Pura70系列降价1000元_红米k30至尊纪念版华为nova7se
机圈周报,盘点一周新机、配置曝光、机圈热闻,每周更新,欢迎关注。7月19日晚,雷军举办主题为《勇气》的年度演讲,为用户们介绍了造车的来龙去脉和这三年多跌宕起伏的故事。演讲结...
日期:07-20
ios15蓝牙断连怎么解决「iPhone 15被曝蓝牙断连问题:无法配对AirPods、车载系统」
快科技2月23日消息,据苹果手机社区多名用户反馈,近日他们的iPhone15系列手机频繁出现蓝牙断连的问题。努比亚 布拉格有用户在苹果社区发文称,自从将iPhone15Pro升级到iOS17.3.1...
日期:02-23
丰田研究所推出生成式AI工具,帮助设计汽车外形「丰田人工智能叫什么」
6月25日 消息:丰田研究所(Toyota Research Institute,简称TRI)推出了一款创新的生成式人工智能(AI)工具,旨在提升车辆设计师的创作过程。该工具通过文本提示,使设计师能够生成设...
日期:06-25
牵手门女子同款裙子销量激增 给裙子打“免职裙”标签合适吗
据报道,中石油下属公司领导胡某勇与一名女子在成都市中心逛街时,被一名街头摄影师拍下举止亲密的照片并在网上发布,引起网民的关注。在此事件发生之后,这名女子也引起了很多网民...
日期:06-08
镜舟科技:一家分布式数据库厂商的开源商业化实践之路_镜舟的由来
文章来源:爱分析正文:01商业化是衡量开源项目成功与否的重要维度之一中国开源软件商业化公司的涌起以及资本对开源的持续关注,正打破人们对开源与商业化“互斥”的传统印象,展...
日期:10-15
机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心编辑部,授权转载发布。为什么机器人技术远远落后于 NLP、视觉和其他 AI 领域?除其他困难外,数据短缺是罪...
日期:10-05
模型产业有多大「大模型行业应用加速落地」
眼下人工智能产业风头正劲。在近日举行的“2023全球数字经济大会人工智能高峰论坛”上,国内首个政务服务领域大模型应用场景正式发布。记者从论坛获悉,当前,北京正加快推进国家...
日期:07-18
10万元买电动路虎卫士:宝骏悦也PLUS五门版实车曝光!_宝骏小路虎
快科技1月12日消息,去年宝骏汽车推出了三门版的微型方盒子电动车悦也,受到了网友们的欢迎,不过其尺寸、空间比较有限,于是五门版的呼声越发高涨,而经官方确认,确实存在这样一款,将...
日期:01-13
网易严选旗下两款产品获中国红星奖 用设计赋能中国制造(网易严选的产品是谁生产的)
  被称为“中国设计界的奥斯卡”的中国设计红星奖火热出炉,网易严选旗下“智造皓月智能护目灯”和“春风啵啵汪吸吮式按摩器”两款商品获得业内及评委组一致好评,强势摘得2...
日期:06-15
美女机器人带动共享飞机突破?6分钟销8亿得益科技加持
  新年伊始,“机器人女主播卖飞机”新闻袭来,令人想到此前的“薇娅直播卖火箭”,不过两者最大的区别,是前者是真正卖的是自家的产品,而且直接就能交付,比起后者的卖火箭只是噱...
日期:01-03
清理电脑无用垃圾_电脑每天产生超过300MB垃圾 金山卫士彻底清扫
  4月7日 电脑只要开机就会产生垃圾。有业内专家称,一台保持开机的电脑平均每天产生的各类垃圾超过300MB。不少用户苦于无法一次性彻底扫除这么多种垃圾。金山卫士最新推...
日期:07-27
贬值不能停 人民币兑日元创31年新高:中国游客扎堆去日本 电子产品等便宜
4月27日消息,4月26日,1美元兑日元达157日元,创下34年来新高,日元自2020年以来,贬值了50%以上。不久前,人民币兑日元则创31年来新高四年前,1元人民币可以兑换14.6日元,而如今可换21.4...
日期:04-27