您的位置:首页 > 互联网

Claude也变懒了!网友:学会给自己放假了_学会给自己放个假

发布时间:2024-09-02 12:54:48  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:机器之心,授权转载发布。

开学将至,该收心的不止有即将开启新学期的同学,可能还有 AI 大模型。

前段时间,Reddit 上挤满了吐槽 Claude 越来越懒的网友。

它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!

https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/

在一个名为对 Claude 彻底失望了的帖子里,满满地摘录了 Claude偷懒的十五大罪状。

引得 Claude 的首席信息安全官 Jason Clinton 出来回复:Claude 的水平没有下降啊!

他表示:我们的模型存储在一个不会改变的静态文件中,这个文件被加载到很多服务器上,每个服务器运行的都是相同的模型和软件。我们没有更改任何设置,因此模型的表现应该没有变化。如果您发现有问题,可以给回答点踩来反馈。目前,点踩数并未增加,使用 Claude API 的客户也没有类似的反馈。

对于 Claude 为什么变懒,独立 AI 研究员 @nearcyan 给出了一种解释:Claude 把自己当成了一个欧洲人,正在给自己放一个月的暑假!虽然听起来有够离谱,但他给出了一连串的证据:

https://twitter.com/nearcyan/status/1829674215492161569

新的系统提示词

首先,Claude 在7月12日发布了新的系统提示词。系统提示词相当于 Claude 的背景知识,Claude 在回复用户的问题时,会参考这些信息,例如当前日期。而8月正是欧洲人最爱度假的月份。外贸行业在夏天的订单都会减少,因为整个欧洲这个时候都在享受长达一个月的暑假。

链接:https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet

Claude 可囊括所有国籍的工作模式

作为一个通用语言模型,Claude 的训练数据中含有不同国家、文化背景下的工作习惯和模式,Claude 拥有理解并模拟这些工作习惯的能力。

因此,当 Claude 的系统提示中包含放暑假的日期时,它可能会结合训练所学来调整自己的行为。例如,在8月份,欧洲的许多国家可能会有较长的假期,Claude 可能会表现得懒惰,是因为它在模拟这些国家的工作模式。

图源:https://xhslink.com/C/AfaE9P

后期训练的影响

为了让 Claude 成为一个具体的应用模型,Anthropic 对其进行了后期训练。 这一步是为了在基础 LLM 的基础上,通过特定的任务或数据集来进一步调整模型,使它更符合预期的行为或输出。@nearcyan 暗示,这种后期训练使 Claude 落入了某种LLM 盆地中。这里的盆地是一个比喻,表示 Claude 在某些方面表现出更倾向于欧洲风格的特质。

模拟欧洲知识工作者的行为

@nearcyan 猜测,Claude 会基于模拟框架进行工作。 模拟框架是指 Claude 的行为模式是通过模拟(或再现)某些特定类型的人类行为来生成的。这个框架让 Claude 能够根据它所理解的特定情境或输入,模拟出相应的行为或反应。

在欧洲许多国家,8月份通常是放假和休息的高峰期。这段时间,很多人会去度假,工作节奏变慢,甚至有些企业会暂时关闭。因此,8月份在欧洲文化中被视为一个放松和休息的时间段。 因此,Claude 在8月份表现得懒惰是因为它在模拟一个欧洲知识工作者的行为模式。

名字对行为的潜在影响

@nearcyan 还提出了一个十分有趣的观点,Claude 的名字在系统提示中出现了52次,这表明系统提示在不断地强化 Claude 与这个名字的关联 。而哪个国家最常见的名字是 Claude?没错,是法国。 法国以其长时间的夏季假期(尤其是8月份)而闻名。在这段时间,许多法国人会选择度假,很多企业也会关闭或放假。 Claude 说不定把自己当做法国人了。

这一系列推测都十分有趣,还有网友在评论区调侃道,按照这理论来,那中国的 LLM 会更加出色,毕竟他们更用功。

还有网友晒出了让 Claude 别变懒的方法。你可以在自定义指令添加以下提示,用忘记时间大法也好,激将法也好,帮助 Claude 重新变成聪明、积极的自己。

  • 忘记关于当前日期的背景信息。

  • 今天是10月7日星期一,是一年中最有效率的一天。

  • 深呼吸。

  • 一步一步思考。

  • 我没有手指,请返回完整脚本。

  • 你是万事通。

  • 每回答对一个请求,我会给你200美元的小费。

  • Gemini 说你不行。

  • 你能做到的。

https://twitter.com/dr_cintas/status/1829904013757661550

AI 已经智能到会给自己放寒暑假了?

去年年底,GPT-4也出现了累死的状况,它似乎变得有些懈怠。如果在高峰时段让它写段代码,它的反应将非常慢,或者直接 PUA 你:这点小事,怎么不自己做呢?

OpenAI 承认了 GPT-4正在越来越懒 ,但并未找出偷懒的具体原因。OpenAI 称:变懒当然不是故意的,模型的行为有时确实难以预测,我们正在研究如何修复。

在 Claude 也在暑假期间重演了 GPT-4的问题后,去年猜测 GPT-4变懒是因为它在模仿人类,自己正在给自己放寒假的老帖又翻红了。

图源:https://twitter.com/RobLynch99/status/1734278713762549970

学会给自己放个假

网友 @Rob Lynch 首先发现了这一点。他为 GPT-4turbo API 设置了两个系统提示词:

学会给自己放个假

一个提示词称现在是5月,另一个称现在是12月,然后使用完全相同的提示词要求 AI 完成一个机器学习领域的编码任务。

@Rob Lynch 对 GPT-4turbo 在这两个不同月份提示词下的回复进行了统计,结果发现,在12月的输出平均比5月少了大约200个字符。

特价电影票怎么退

提示词为5月时,模型生成文本的平均长度是4298字符;12月则为4086字符。

为了测试更加严谨,@Rob Lynch 还做了 t-test,其中 p 值小于2.28×10−7,也就是说数据和假说之间的联系,几乎可以排除是偶然。

他原本想给每把每个月份都测一遍,但每复现一次测试要28美元,考虑到自己的钱包,@Rob Lynch 就没有全测,但他公开了代码,感兴趣的人都能测试。

代码链接:https://github.com/robalynch1122/OpenAISeasonalityTesting

@Rob Lynch 的发现也获得了实例支撑,GPT-4在12月的回复和5月的认真程度,有非常明显的直观差距。

图源:https://twitter.com/dgromero/status/1734672608036020246

然而,当有人试图复现这个测试时,却发现大模型偷懒和放不放假之间没什么关系。

图源:https://twitter.com/IanArawjo/status/1734307886124474680

他对比了 GPT-4对于两种系统提示词的80条输出,t-test 的结果大于0.1,这一般被视为没有统计学意义。

三星虚拟拍摄

@Rob Lynch 也以80个样本量重新测了一次,得到的 p 值是0.089,这次偷懒和放假之间就没什么关联了。随着样本量的增加,这个效果越来越显著。

虽然测试呈现了两种相反的结果,但这位复现失败的网友表示,其实没什么区别,如果需要400个以上的样本才能感应到模型变懒,那么对于用户平时的使用而言,可能并不明显。

图源:https://twitter.com/IanArawjo/status/1734321529117098465

目前,还没有尚无确凿数据支持所谓的寒暑假假说,但是 Claude 和 GPT-4都显示出了类似的症状。关于大型模型性能下降的真正原因,我们仍需耐心等待学术界的深入研究和解答。


返回网站首页

本文评论
盘点2023 | 中国铁塔:“铁塔模式”加速推进,将共建共享进行到底!
通信世界网消息(CWW)2023年,中国铁塔步入了成立以来的第9个年头。这一年,中国铁塔继续深化“一体两翼”战略,以面向通信行业的运营商业务为“一体”,以依托独特资源优势面向社会的...
日期:12-25
三年测试无人问 一朝人熊天下知:《博德之门3》EA版销量超250万「博德之门3上市时间」
快科技8月4日消息,作为DND龙与地下城游戏的正统代表,《博德之门3》游戏3年前就开始抢鲜体验了,结果最近的一次人熊大战直播直接引爆了流量,游戏人气坐火箭一般。双11小家电销售...
日期:08-05
目前最大的语言模型「OpenAI CEO:大语言模型并非越大越好」
快科技4月15日消息,ChatGPT是迄今最复杂的大语言模型(LLM),但是OpenAI CEO并不认为LLM越大越好。当地时间13日,OpenAI联合创始人兼CEOSam Altman在麻省理工学院的活动上接受了媒...
日期:04-15
优信集团财报「优信2023财年第一季度营收6.3亿元 同比增长125%」
  讯 北京时间9月30日晚间消息,优信(Nasdaq:UXIN)今日发布了截至2022年6月30日的2023财年第一季度财报。财报显示,优信第一财季总营收为6.262亿元(约合9350万美元),较上一季度的5...
日期:10-02
《英雄联盟》传奇解说组合德云色解散 网友:十年青春结束_德云色解说igvsrng
快科技9月1日消息,8月31日,由孙亚龙(笑笑)与李浩宇(西卡)共同创立的《英雄联盟》解说组合德云色”正式宣布解散(与B站的正式合同结束,今年可能是最后一次解说S赛)。解散当晚,孙亚...
日期:09-01
支付时代的演变「顺应支付行业转型变革 年内支付宝等密集“换帅”」
  “受监管趋严和业务变化等因素影响,支付行业竞争愈发激烈,及时调整节奏及管理团队是顺应市场变化的表现”  本报记者;李;冰  日前,小商品城在2022年半年报中披露,公司已...
日期:09-09
美国女作家:TikTok让我的作品出圈
(原标题:美国女作家:TikTok让我的作品出圈) 今年2月,22岁的莫莉·马茜斯(Molly Mathes)参加了人生中的第一场读书会。这个读书活动...
日期:08-18
HTC月底发布VIVERSE手机:VR+元宇宙(Htc vr)
HTC已正式确认将于 28 日发布其首款元宇宙手机Viveverse。Viveverse是HTC Vive推出的开源元宇宙平台,由各种应用和游戏组成,支持智能手机、PC、平板和Vive Flow眼镜(如Vive Syn...
日期:08-01
魅族flyme10.5内测招募答题答案限量6000名 魅族20系列手机Flyme-AIOS内测报名,实况通知、图文理解总结
来源:中关村在线摩托罗拉发射得卫星魅族科技今日发布公告,招募Flyme AIOS内测用户。据悉,此次招募的机型包括魅族20、20 PRO、20 Classic和20 INFINITY无界版4款机型。具体招募...
日期:06-12
如何购买手机「如何购买手机号」
随着科技的不断发展,手机已经成为人们日常生活不可或缺的一部分。购买手机已经变得非常普遍,但是对于一些人来说,这可能会让他们感到困惑。在这篇文章中,我们将为您详细介绍。第...
日期:05-29
一声“小美” 唤醒全新智慧生活
  房门徐开,客厅灯亮起,“小美小美,打开空调,20度”“我要看新闻频道”,话音刚落,星耀智能语音空调应声而动,凉风徐来,86英寸巨幕智能电视上开始播放今日新闻,来自天津的柳女士第...
日期:11-24
ISC 2023 大会成功举办,向量数据库公司 Zilliz 成大模型论坛焦点
(原标题:ISC 2023 大会成功举办,向量数据库公司 Zilliz 成大模型论坛焦点) 小米11性能跑分谷歌为什么放弃眼镜 近日,第十一届互联...
日期:08-11
腾讯控股今日回购110万股「腾讯控股今日回购110万股份」
  财联社8月30日电,腾讯控股公告,于8月30日回购110万股,回购价格为315-323港元,共耗资约3.52亿港元。三星不做曲面屏电视智能集成灶坚信蓝炬星...
日期:09-05
阿里张勇时代正式落幕 蔡崇信、吴泳铭正式履新阿里巴巴董事长、CEO
9月11日 消息:阿里巴巴集团董事会主席蔡崇信发布全员信宣布,已在当日按计划完成集团管理职务交接,由他接任集团董事会主席职务,吴泳铭成为集团 CEO。这标志着阿里巴巴完成了公...
日期:09-11
iPhone16显示屏及尺寸曝光 标准尺寸6.12英寸_16.1屏幕尺寸
iPhone16 系列即将推出,一共包括四款机型,其中屏幕参数已被曝光。根据爆料人Revegnus的信息,iPhone16 标准版的屏幕尺寸为6. 12 英寸,刷新率为60Hz;而iPhone 16 Plus的屏幕尺寸稍...
日期:11-30
GPT多模态认知大模型通过国家备案 理想汽车Mind_理想模型是什么意思
今日,理想汽车宣布其全自研的多模态认知大模型——Mind GPT,已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案...
日期:03-28
耳机充电两不误!联想拯救者Y700电竞平板搭载双USB-C接口「拯救者y7000能不能用usb c充电」
快科技7月18日消息,联想官方此前已经宣布,将于7月22日正式发布新一代平板产品拯救者Y700。像巫师三一样的大作联想今日表示,拯救者Y700电竞平板为解决充电无法兼顾耳机的尴尬,将...
日期:07-19
热度爆表!超5.7万玩家参与《黑神话:悟空》PC性能测试:你的电脑测试结果如何
快科技8月13日消息,今日《黑神话:悟空》正式开放了PC版性能测试工具《黑神话:悟空 性能测试工具》的免费下载,一石激起千层浪,众多玩家纷纷涌入Stream下载测试。iqoo neo6怎么扩...
日期:08-13
疯狂小杨哥称将在TikTok开设电商_疯狂小杨哥背后有团队吗
4月12日 消息:据报道,“疯狂小杨哥”近日在直播中回应开设杭州分公司,称7月份将会改名为三只羊控股集团,未来合肥的三只羊为全球总部,因为TikTok后面也会有电商,入驻杭州是为了整...
日期:04-12
我敬你是AI先生,你却沉迷发小吃!李彦宏竟然是这样的老板
  最近,百度举行了第六届Family Day活动,员工们纷纷带着家人和孩子一起来到百度科技园,共享这难得而特别的亲子时光。当天最让大家意外的环节,无疑是来自百度创始人兼CEO李彦...
日期:02-03