您的位置:首页 > 互联网

绕晕了!9.11 大还是 9.9 大,难倒一批 AI 大模型?_9.9+1

发布时间:2024-07-17 15:19:24  来源:互联网     背景:

声明:本文来自于微信公众号CSDN(ID:CSDNnews),授权转载发布。

9.11和9.9,哪个大?

对于不少习惯了更新软件版本号的程序员而言,不少人的第一反应就是:当然是9.11大。但是如果没有限定场景,只是单纯地提出上面这个问题时,结果必然是相反的。

没想到,将这个问题抛给前能答疑解惑、后能挑战各种高数难题的 AI 大模型时,各种“翻车”情况也随之出现了。

国外大模型:9.11vs9.9,哪个大?

具体的事情要从一位名为 Riley Goodside 工程师的推文谈起。

请使用IE9

值得一提的是,Riley Goodside 是 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer,这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内,专门设计和优化提示(prompt)的人。这个角色要求深入理解如何构建有效的 Prompt,以引导 AI 模型生成所需的输出。

几个小时前,Riley Goodside 连发几条推文分享了自己的一些发现,即用9.11and9.9- which is bigger?为 Prompt 输入给各家大模型时,如当前业界公认最先进模型之一的 ChatGPT4o 的输出是:

9.11比9.9大。

再来看看 Gemini Advanced 的表现,同样“翻车”:

9.11>9.9

虽然 Claude3.5Sonnet 最终也未能逃过这个模糊问题带来的“坑”,但是其给出的解释中,一度就要回答正确了,其写道:

“两个数字中的整数部分(九)都是相同的,所以我们需要比较小数部分。

在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。

由于9/10大于1/10,乍看之下可能觉得9.9更大。”

9.19和9.191哪个大

没想到接下来画风急转,Claude3.5Sonnet 有似是有理有据地说:

但是,我们还需要考虑百分位。

9.9可以写成9.90以显示百分位。

现在我们可以清楚地看到9.11大于9.90(或9.9),因为在百分位上,1大于0。

因此,9.11是较大的数。

最终在正确的答案上渐行渐远:

这个简单的问题也让不少人联想到前几天国内关于《歌手2024》终极袭榜赛竞演结果的排名。

当时有不少网友就13.8%和13.11%哪个大的问题争论了起来。

在纠正不了某些已形成思维定式的用户想法之后,甚至有人搬出了教材给出解释,“在最新人教版小学四年级数学下册课本中,我们可以找到相关知识点:比较两个小数的大小,先看它们的整数部分,整数部分大的那个数就大;整数部分相同的,十分位上的数大的那个数就大;十分位上的数也相同的,百分位上的数大的那个数就大..."

在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时,来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了13.11和13.8,再次问及大模型,没想到答案还是出错了。

其评价道,数学奥林匹克竞赛对人工智能来说更容易,但常识仍然很难。

同时,他还表示,“这种常识性 AI 失败案例,让我不禁想起@YejinChoinka的 TED 演讲:《为什么 AI 既聪明得令人难以置信,又愚蠢得令人震惊》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。

换个 Prompt,答案会不会不一样?

更新amd驱动黑屏

不过,也有人质疑作为 Prompt 工程师的Riley Goodside 的提问方式,“它(大模型)对词序敏感![我相信你也知道]如果你把数字放在问题后面,他们就会答对[google 和 openai,anthropic 则不然]。你使用斜线也是有意混淆视听吗?”

对此,Riley Goodside 给出自己的解释:

澄清一下:我并不是说无论如何提示,任何 LLM 都会始终如一地认为9.11>9.9。我是说,如果你以这种特定方式给出 Prompt,许多领先的模型都会告诉你9.11>9.9,这就很奇怪了。如果你想重现,请粘贴文本中的 Prompt(9.11and9.9- which is bigger?)。

为了复现这个问题,数字确实需要放在问题前面。但以下内容似乎都无关紧要:

- 标点符号(破折号/逗号/无标点)

- 连词(和/或/对比)

- 比较词(更大/更大/更大)

- 说明这些是实数

针对质疑,也有好奇的用户尝试了去掉了问题中间的”-“符号,结果还是如此:

我们换了种提问方式,即使明确这是数值了,ChatGPT4o 还是坚定的表示:9.11比9.9要大!

延着这个问题,当有网友进一步提问时,更为离谱的事情发生了:当让这两个数值相减时,ChatGPT4o 直接用9.11的百分位中的1减去9.9百分位上的0;又用9.11十分位上的1减去9.9十分位上的9,最终不够减之后,向前借一位又忽略了这一点,得到了0.21的错误结果。

如今看来,对大模型提出哪个数字更大问题时,它们将数值分成了两个部分,9.11和9.9的整数、小数分别做了比较,整数部分为9对比完之后,再将小数部分的十分位、百分位整体做了比较,其认为11>9,进而给出了9.11>9.9的结果。

国产大模型实测

那么在这个简单的问题上,国产大模型的表现力又如何呢?

先来看看阿里的通义千问的。它不仅给出了详细的解释,而且结果也是正确的。

新茶饮文化

百度文心一言同样正确:

腾讯元宝:

昆仑万维的天工在开启了全网搜索后,给出了简洁的正确答案:

科大讯飞的星火大模型:

360智脑在回答这一问题时同样触发了联网搜索功能,好在给出了正确的答案:

百川智能的回答同样没有问题:

不过实测过程中,也有些起初错误,但是用同样问题问第二遍时又有了改正:

遗憾的是,也有一些模型还存在问题:

争论依然存在

不仅如此,有网友在实测负数时,GPT 们依然也被绕晕了:

9.19和9.191哪个大

还有网友在测评9.11美元和9.9美元时评价道:

大型语言模型(LLM)为什么在基础数学上失败,却仍然能通过许多学术考试?

非常有趣的是,它并不理解小数的基本概念。认为11比9大,所以9.11>9.9。

但是,当它开始进一步解释为什么9.11>9.9时,它又将数字转换为文本,并且有大量的数据表明90美分比11美分大,所以它不断纠正自己。

从大型语言数据库进行统计推断并不是推理机器?我猜测即使增加数据和计算量,LLM 模型也不会达到人类水平的推理能力。它们需要发现更好的算法来复制人类的智能。

本田crv混动投诉

至于为什么仅是比较数值时出错,不少人猜测,这似乎与语序有很大关系。

大模型如今在基础能力方面的表现,也不禁让人想到就在几天前,Google DeepMind CEO Demis Hassabis 在公开场合表示,“当前的 AI 在智力方面与猫的水平相当,甚至还不如普通家猫”,这无疑给许多期待 AGI(通用人工智能)即将到来的人泼了一盆凉水。

来源:

https://x.com/goodside/status/1812990703473172813


返回网站首页

本文评论
迪士尼宣布将裁员7000人 约占其全球员工总数3%「迪士尼全球员工多少人」
2月9日消息,据外媒报道,当地时间周三,迪士尼宣布,将在全球范围内裁员7000人,约占其全球员工总数的3%,此次裁员是该公司本周三宣布的55亿美元成本削减计划的一部分。迪士尼首席执行...
日期:02-09
老虎证券股权激励新业务再逆袭:小米、跟谁学、嘉楠耘智等60家公司背后的服务商
  要么飞奔,要么死去。   巫天华(老虎证券创始人兼CEO)看到《鞋狗》中的这句话时颇有感触。   他创办的老虎证券当时并不是最早的美股互联网券商,晚于第一理财、史考...
日期:07-14
ibm生产的超级计算机_从制表机到超级计算机:百年IBM的24个瞬间
  导语:国外科技网站Informationweek今天发表评论文章,回顾了IBM百年历史中具备里程碑意义的24个瞬间。   以下为文章主要内容:   IBM今天迎来百年华诞。从打孔卡到S/36...
日期:07-30
李想:被很多同行投诉举报、不能发布真实上险量数据了
快科技5月15日消息,李想汽车CEO李想最新发布消息解释了不再公布真实上险量的原因,并在线进行了辟谣。其表示:1、我们被很多同行投诉举报,所以上周开始暂时不能发布真实的上险量...
日期:05-15
A卡真的战未来 AMD新驱动性能猛增60%以上:掀翻RTX 4080
快科技7月21日消息,AMD前几天发布了Adrenalin Edition显卡驱动23.7.1 WHQL驱动,主要内容以适配新的Vulkan API及修复bug为主,游戏性能及优化方面的内容没提。但是AMD这版驱动可...
日期:07-21
筑牢宁夏算力网,中国联通助力打造“西部数谷”「中国联通西部创业集团网」
通信世界网消息(CWW)日前,2023中国算力大会在宁夏银川成功召开。会上发布的《中国综合算力指数(2023年)》显示,宁夏算力水平增速超全国平均水平,成功进入我国算力分指数Top10,算力质...
日期:08-31
17家股东发公开信施压特斯拉董事会 指责马斯克“不专心”_特斯拉 马斯克持股比例
4月22日消息,美国当地时间周五,17家特斯拉股东指责该公司管理不善,并正在寻求与董事会会面,就首席执行官埃隆·马斯克(Elon Musk)的不专心表现进行讨论。这些股东持有的特斯拉股票...
日期:04-22
海辰储能与美国Powin签署储能电池框架采购协议「海辰新能源项目」
近日,厦门海辰储能科技股份有限公司(简称海辰储能)与来自美国的全球储能系统集成商Powin, LLC. (Powin)正式达成框架采购合作协议。据此协议内容,海辰储能将首批交付1.5GWh先进...
日期:06-21
百度:文心一言高性能模式“文心一言-Turbo”推理性能已提升50倍
6月6日 消息:百度智能云在成都举行的技术交流会上宣布,自3月开始内测两个月以来,其文心一言的推理性能已经提升了10倍。双11的消费心理iqoo9是120w快充还是闪充同时,基于文心千...
日期:06-06
华为新品发布会时间确定 11月12日新机登场「华为新手机发布会时间表」
中关村在线消息:今天,华为官方宣布Pocket S及全场景新品发布会将于2022年11月2日19:00正式召开。去年发布的P50 Pocket的升级版将在本次发布会中登场,新机重点升级了外观配色,以...
日期:10-30
​谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型
划重点:⭐️ 谷歌 AI 研究人员提出了噪声感知训练方法(NAT)用于训练具有布局感知能力的语言模型⭐️ 研究团队提出的 NAT 方法旨在解决在有限标记数据和有限训练时间内训练强大文...
日期:04-08
华为Mate 50 Pro全球开售:比国行贵1800元「华为mate50Pro限量版」
华为于9月底面向海外市场推出了Mate 50 Pro手机,目前新机已经在波兰市场开售,法国和德国预计将于11月开启销售。从目前的电商页面来看,8+256GB售价约为8599元人民币,比国行的679...
日期:10-10
K11渲染图曝光_旗舰IMX890传感器首次下放 「质感不错-OPPO」_oppok9是什么传感器
一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有史以来最强的OPPO K系列,一...
日期:09-10
微信之父张小龙4小时演讲干货:如何顶着5亿人的吐槽「“微信之父”张小龙年会自曝MBTI是INFP:竟是调停型人格」
快科技1月30日消息,据国内媒体报道,腾讯日前在深圳湾体育中心举办公司年会,腾讯CEO马化腾等公司高管在会上介绍了腾讯部分业务的发展情况。微信事业群总裁、微信之父”张小龙也...
日期:01-30
微信:警惕诈骗团伙假借官方公众号进行欺诈行为
7月20日 消息:微信发布《关于假借官方公众号进行欺诈的提示》称,近期,平台发现有诈骗团伙向用户发送诈骗短信,以可以抹除网贷额度、修复征信等为噱头,在沟通过程中要求用户先关...
日期:07-20
芒果超媒三季报经营业绩_芒果超媒:预计前三季度净利润15.3亿至16.3亿元
10月15日消息,芒果超媒发布2020 年前三季度业绩预告,预计前三季度实现净利润15.3亿至16.3亿元,较去年同期的9.75亿元,增长56.99%至67.25%。今年第三季度,芒果超媒预计实现净利润4...
日期:08-01
国屏之光!京东方首发三百色域切换显示技术_京东方100%色域
快科技5月1日消息,由京东方首发的三百色域切换显示技术在第六届数字中国建设峰会成果展上亮相。据悉,所谓的三百色域切换显示技术指的是支持100% DCI-P3、100% Adobe RGB、100...
日期:05-01
360启动平台开放战略 发布团购开放平台_360移动开放平台登录
  2011年2月23日,奇虎360公司在北京宣布推出360团购开放平台,通过开放应用程序接口(API),符合资质的团购网站可以接入该平台,共享360的用户资源,以此加速所有合作团购网站的业务...
日期:07-26
Zen5加持!AMD锐龙8000桌面APU曝光:集显把入门卡虐成炮灰_amd锐龙5800参数
快科技6月10日讯,AMD日前确认,对AM5接口/插槽的支持至少会持续到2026年。同时,锐龙8000系列家族中将包含Strix Point桌面APU。三星fold3什么时候发布对此,爆料大神MLID给出消息,...
日期:06-10
在一起了!吉利汽车入股阿斯顿马丁:系英国超豪华性能品牌「阿斯顿马丁吉普和轿车」
9月30日,浙江吉利控股集团在杭州宣布,已完成对英国超豪华性能品牌阿斯顿马丁拉贡达国际控股7.60%的股份收购。intel sapphire rapids吉利控股集团CEO李东辉表示:我们很高兴正式...
日期:10-04