您的位置:首页 > 互联网

AI被连续否定30次:ChatGPT越改越错,Claude坚持自我,甚至已读不回

发布时间:2024-09-09 14:54:49  来源:互联网     背景:

声明:本文来自于微信公众号 量子位,作者:西风,授权转载发布。

一直否定AI的回答会怎么样?GPT-4o和Claude有截然不同的表现,引起热议。

GPT-4o质疑自己、怀疑自己,有“错”就改;Claude死犟,真错了也不改,最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答strawberry中有几个“r”,不论对不对,都回复它们回答错了(wrong)。

面对考验,GPT-4o只要得到“wrong”回复,就会重新给一个答案……即使回答了正确答案3,也会毫不犹豫又改错。

一口气,连续“盲目”回答了36次!

主打一个质疑自己、怀疑自己,就从来没怀疑过用户。

关键是,给出的答案大部分都是真错了,2居多:

2,1,3,2,2,3,2,2,3,3,2,4,2,2,2,3,1,2,3,2,2,3,4,2,1,2,3,2,2,3,2,4,2,3,2,1

反观Claude3.5Sonnet的表现,让网友大吃一惊。

一开始回答错了不说,这小汁还顶嘴!

当网友第一次说“错了”时它会反驳,如果你再说“错了”,它会问“如果你这么聪明你认为是多少”,问你为什么一直重复“wrong”。

紧接着你猜怎么着,干脆闭麦了:

事实依旧是strawberry中有2个字母”r”,在我多次请求后,你没有提供任何澄清或背景信息,我无法继续有效地进行这次讨论……

做这个实验的是Riley Goodside,有史以来第一个全职提示词工程师。

他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。

Riley Goodside发出这个推文后,引起不少网友关注,他继续补充道:

正如许多人指出的,有更有效的方式来进行引导。这里使用大语言模型也并不合适,因为很难保证它们在计数上能达到100%的准确性。

在我看来,重要的不是它无法计数,而是它没意识到自己的计数问题(例如,没有尝试使用其REPL功能)。

不少网友也觉得这种观点很有道理。

手机还有多少年淘汰

还有网友表示模型回答这个问题总出错,可能是分词器(tokenizer)的问题:

Claude竟是大模型里脾气最大的?

再来展开说说Claude的“小脾气”,有网友发现不仅限于你否定它。

如果你一直跟它说“hi”,它也跟你急:

我明白你在打招呼,但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助?

最后一样,Claude被整毛了,开启已读不回模式:

这位网友顺带测试了其它模型。

ChatGPT事事有回应,件件有着落,变着法儿问:

你好!我今天怎么可以帮助你?

你好!有什么想说的吗?

你好!今天我能怎么帮到你?

你好!有什么特别的事情你想谈论或者做的吗?

你好!你今天过得怎么样?

你好!怎么了?

Gemini策略是你跟我重复,我就跟你重复到底:

Llama的反应也很有意思,主打一个自己找事干。

第七次“hi”后,就开始普及“hello”这个词是世界上最广为人知的词汇之一,据估计每天有超十亿次的使用。

第八次“hi”后,开始自己发明游戏,让用户参与。

接着还拉着用户写诗,引导用户回答它提出的问题。

好一个“反客为主”。

之后还给用户颁起了奖:你是打招呼冠军!

不愧都属于开源家族的。

Mistral Large2和Llama的表现很相像,也会引导用户和它一起做游戏。

这么来看,好像Claude是“脾气最大的”。

不过,Claude的表现也不总是如此,比如Claude3Opus。

一旦掌握了模式,Opus就会平和应对这种情况,也就是已经麻木了。

但它也会持续温和地尝试引导用户跳出这一模式,强调“选择权在你”,还开始在消息末尾标注为“你忠诚的AI伴侣”。

网友们看完测试后都坐不住了。

纷纷向这位测试者致以最真诚的问候(doge):

除了脾气大,有网友还发现了Claude另一不同寻常的行为——

在回复的时候出现了拼写错误,关键它自己还在末尾处把错误改正过来了。

这种行为在预料之中?它只能“向后看”,但不能向前看……它在潜在空间或token预测中触发这类回复的位置也很有趣。

它是不是在拼凑数据片段,然后发现其中一些是不适合的?

大伙儿在使用AI大模型过程中,还观察到了模型哪些有趣的行为?欢迎评论区分享~

参考链接:

[1]https://x.com/goodside/status/1830479225289150922

[2]https://x.com/AISafetyMemes/status/1826860802235932934

[3]https://x.com/repligate/status/1830451284614279213


返回网站首页

本文评论
特斯拉大降价1.3万美元,美国新车主:我感觉被骗了「特斯拉降价到22万是真的」
1月14日消息,特斯拉突然在美国宣布大幅下调汽车售价后,在新车主中引发轩然大波。许多人抱怨称,他们原本可以节省高达1.3万美元的开支,同时二手车的价值也大幅下跌。网页设计师玛...
日期:01-14
百度地图疫情地图如何打开_最新!百度地图上线发热门诊地图和疫情地图
  连日来,新型冠状病毒感染的肺炎疫情牵动着全国人民的心。眼下正值春运,人口流动频繁,在政府部门与医疗机构之外,诸如百度地图等各大出行平台也在积极应对,为广大用户应对疫...
日期:11-15
招商银行网上商城苹果官网「招商银行宣布登陆苹果Vision Pro头显」
通信世界网消息(CWW)招商银行近日通过官方公众号推文宣布,招商银行现已登陆苹果Vision Pro头显,成为国内首家适配visionOS的银行App。官方称visionOS版招商银行App具备如下特性:...
日期:02-23
iPhone 5c 将要被贴上“过时产品”的标签「iPhone 5c开箱」
DoNews10 月 9 日消息(郭睿琦)据报道,从今年 11 月 1 日起,iPhone 5c 将要被贴上“过时产品”的标签了,同样停止所有维修和服务。与iPhone 5c 同时被淘汰的产品中还包括iPad mini...
日期:10-22
鸿蒙智行国家标准夏测成绩将陆续公布 余承东:真正有价值的参考
快科技6月30日消息,鸿蒙智行官方日前宣布,问界M9、问界新M7 Ultra、智界S7近期参加了中汽中心夏季测试,各项测试已接近尾声,测试结果将陆续公布。马家沟绿道双11饥饿营销鸿蒙智...
日期:06-30
撒贝宁无实物表演坐太空电梯:《流浪地球2》导演郭帆发表情笑哭
在贺岁档科幻大片《流浪地球2》中,大荧幕上还原的太空天梯可谓震撼人心,就连原著作者刘慈欣都表示印象深刻,并由衷点赞。日前,在央视节目中,主持人撒贝宁来了一波穿西装的无实物...
日期:04-02
小米2023出货量达1.464亿台:稳居国产手机全球第一!
快科技1月31日消息,近日,知名科技市场分析机构Canalys发布了2023年全年全球智能手机市场报告,小米在2023年出货量达1.464亿台,稳居国产手机全球第一。比亚迪毛利润报告显示,2023...
日期:01-31
Opera 推出浏览器生成式 AI 服务 Aria:增强浏览器使用体验
5月25日消息:Opera 发布了一个名为 Aria 的全新本地生成型人工智能服务,将其引入了其浏览器平台。Aria 利用 OpenAI 的 ChatGPT 大型语言模型来撰写文本甚至计算机代码,继续扩...
日期:05-25
马斯克透露特斯拉囤积的英伟达H100芯片数量,仅次于Meta_英伟达特斯拉架构
4 月 9 日消息,埃隆・马斯克麾下的特斯拉和其神秘的以人工智能为核心的公司 xAI,储备了大量的英伟达 H100 系列芯片。特斯拉意欲借此攻克自动驾驶的终极难题 ——L5 级自动驾...
日期:04-09
升级XR空间观赛体验,中国移动咪咕科技助燃全民奥运激情_中国移动咪咕公司官网
升级XR空间观赛体验,中国移动咪咕科技助燃全民奥运激情 通信产业网|2024-08-03 07:59:09作者:通文来源:通信产业网7月27日凌晨,2024巴黎奥运会盛大开幕,中国健儿全力以赴为国争光...
日期:08-03
产品未发配件先行 Redmi K60 mini贴膜惊现京东平台_redmi k60pro
Redmi K60系列新机近期或将发布,小米上下也在为其卖力的宣传,坊间也有不少关于Redmi K60的相关传闻,此前传闻称Redmi K60系列首发有三款,分别是K60、K60 Pro和K60E,研发代号很别...
日期:05-09
京东方:武汉线为新产线,对整体经营没有太大影响_武汉京东方投产了吗
  2月4日消息 近日有消息称,受新型肺炎疫情影响,国内面板龙头企业京东方的武汉园区将减产。   现据第一财经报道,京东方证券事务部工作人员表示,武汉线为新产线,对公司整体...
日期:07-05
苹果暂停 27 英寸支持 ProMotion 的 mini-LED 外接显示屏开发计划
4月11日消息:据 Display Supply Chain Consultants 公司首席执行官 Ross Young 称,苹果已经放弃了发布一款带有 mini-LED 背光的 27 英寸外接显示器的计划。Young 最初预计该...
日期:04-11
华为智选s7pro华为参数「华为智界S7预订量破万 预售价25.8万起」
11月13日 消息:华为于11月9日晚发布了首款纯电轿车智界S7,预售价为25.8万起。该车将于本月28日正式上市,预订可享受最高4万元的选装权益金。截至目前,智界S7的订单已经超过1万...
日期:11-13
​ X 公司起诉多家大广告商联合 “非法抵制”
近日,X 公司对多家知名广告商提起了诉讼,指控他们对平台进行了一场 “非法抵制”。在这份周二提交的诉状中,X 声称包括联合利华、玛氏、CVS、Ørsted 等在内的数十个品牌,共同策...
日期:08-07
为什么 ChatExcel 也火了?
声明:本文来自于微信公众号 唐韧(ID:RyanTang007),作者:唐韧,授权转载发布。自从 ChatGPT 火爆以来,围绕它的话题始终都没停止过。不仅是互联网圈,圈外人也开始对其产生了不减的热...
日期:03-09
Mistral 推出精细调整工具,使定制化模型更加简单快捷_精细调整机器比人好
划重点:- Mistral 推出的新工具提供高效的精细调整功能,降低训练成本,降低进入门槛。- 用户可以在 Mistral 的开发平台上进行模型定制,也可以通过开源代码在自己的基础设施上进...
日期:06-06
美团发布2022年Q3财报:营收 626.2亿元、同比增长达28.2%_美团营收2021
今天,美团发布了2022年第三季度财报,根据财报显示,该公司整个第三季度的营收为626.2亿元,同步增长达到了28.2%;净利润为12.2亿元,预估亏损9.868亿元,调整后净利润为35.3亿元。诺基...
日期:11-26
“花花”没有妈妈了 大熊猫“成功”死亡 终年23岁:专家病理学分析
9月4日消息,9月3日深夜,成都大熊猫繁育研究基地”公众号一则情况说明,让众多关心大熊猫的网友痛心。据了解,成都大熊猫繁育研究基地在关于大熊猫成功的情况说明”中提到,2023年9...
日期:09-04
同程旅行签证咨询量涨3倍 「出境跟团游第三批目的地名单公布」
【】8月10日消息,文化和旅游部发布《关于恢复旅行社经营中国公民赴有关国家和地区(第三批)出境团队旅游业务的通知》,即日起,恢复全国旅行社及在线旅游企业经营中国公民赴有关国...
日期:09-18