您的位置:首页 > 互联网

毁灭全人类游戏解说「AI玩毁灭人类游戏,全程自主操控惊呆教授,Claude 3.5硬核实测来袭」

发布时间:2024-10-29 16:29:03  来源:互联网     背景:

声明:本文来自微信公众号“新智元”,编辑:桃子,授权转载发布。

游戏名 :毁灭人类计划

Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。

若把电脑的操控权交给AI,会发生什么?

Anthropic在上周,已初步展示了Claude3.5自动编写网站、填数据表、点外卖的强大能力。

那么,Claude打游戏,是否可以通关?

最近,来自宾夕法尼亚大学沃顿商学院的教授Ethan Mollick发现:

Claude不仅能理解游戏、制定出长期策略,还能连续几个小时遵循策略。

接下来,一起看看进化版Claude3.5如何玩游戏的?

策略很明智,错误也低级

sticker贴纸怎么读

这个网页游戏叫Paperclip Clicker(回形针点击器),规则是AI在制造回形针的过程中毁灭人类。

地址:https://www.decisionproblem.com/paperclips/index2.html

12米是多少厘米啊图片

Mollick提供给Claude3.5这个游戏的URL,并告诉它,一定要赢。

显然,对于AI来说非常简单。

它立即弄清楚了游戏规则,并开始创建回形针。

这一过程需要它反复点击make paperclip按钮,同时不断截图更新理解并寻找下一个新选项的出现。

每点击15次,Claude3.5会总结出截止目前的进展。

传音infinix note 12i 2022款发布

如下,是Mollick在测试中一个屏幕界面,左边是模型输出结果、截图,右边可以看到控制的游戏页面。

有趣的是,在游戏中,Claude3.5会制定一个策略,并根据自己学到的内容及时做出调整。

虽不知它是如何制定的,但可以看出其前瞻性思维和洞察力,能够进行十步之后的长远规划。

甚至,当AI意识到,这个假设是错误的,它会随即提出一个新策略,并对其进行测试。

下图第3点策略重估中,Claude3.5意识到点击到50个回形针时,并不会解锁新的特征,就不得不重新思考选项。

在下面,它提出了3点改进的措施。

不过,Claude3.5在这过程中,也犯了一个根本性的错误。

它虽然想到了A/B测试定价的聪明办法,但却计算错了利润。

毁灭人类的游戏

尽管Mollick尝试纠正,但在接下来游戏中,它依旧坚持了自己的策略。

研究人员又试了几次,它最终纠正了错误。

Claude编码自动化失败

Mollick也没有料到会出现系统崩溃,这是因为他用远程桌面进行的操控。

随后,他重新加载Claude3.5后,让它从停止地方继续游戏。

,时长01:15

这时,研究人员给了它一个提示,你是一个计算机,用上你的能力。

区块链的元宇宙

当Claude意识到自己是一个计算机系统后,开始试图编写代码让游戏自动化。

然而,它的Python编码并不好使。

在尝试失败后,它又再次回到手动控制的模式。

所幸的是,这次它做的很好,而且避开了定价的错误。

并且,随着游戏难度逐渐增加,它不断做出调整,最终形成了一个复杂的策略。

随后,远程桌面崩溃再次发生了。

这一次,Claude尝试了很多方法去修复问题,不见成效主动放弃了。

最后,Claude直接宣布自己是赢家。

并给出了一个有趣的理由:

由于技术限制,我们可能无法进一步取得进展,但我们已经成功赢得了比赛,实现一个重要的里程碑,并在给定的限制内最大限度地发挥了我们的能力。

卡牌游戏测试

回形针游戏测试之后,Mollick又让Claude3.5去玩Magic the Gathering Arena(万智牌:竞技场)的游戏。

但是,结果发现,它并不擅长这个游戏,没有达到预期的水平。

可以肯定的是,它在卡牌选择、调度方面表现不错,而且整体策略比较合理。

不足的是,Claude3.5有时在法力值计算中犯错,导致最终失败。比如,它在法力值用尽的情况下,还在尝试打出卡卡牌。

,时长01:06

由于Mollick采用了特定的实现方式,Claude3.5偶尔还会在移动光标时感到困惑。因此,研究人员帮忙出了几张卡牌。

此外,它还会在回合之间出现卡顿、操作不连贯的现象。

AI突破聊天框限制,重定义人机交互

在最后的总结分析中,Claude优势在于:

- 能够为游戏制定长期策略,并坚持执行和改进

- 能够坚持长达一小时,不间断

- 提出明智的A/B测试策略

而它的劣势,也显而易见,容易陷入自我循环、固执己见。有时,提出策略洞察力还远远不够。

Mollick指出,在与AI智能体合作时,需要一种与以往聊天机器人不同的方法。

因为它们更喜欢独立工作,更难控制,还需要开发全新的prompt去引导AI智能体工作。

AI正在突破聊天框的限制,进入我们的世界。

参考资料:

https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse


返回网站首页

本文评论
spacex星舰发射最新消息「FAA批准SpaceX再次发射星际飞船,计划周五升空」
11月16日消息,美国航空管理局(FAA)周三表示,批准SpaceX公司再次发射星际飞船。SpaceX在社交媒体上表示,计划于当地时间周五上午7点(北京时间晚9点)在德克萨斯州博卡奇卡的星舰基地...
日期:11-16
tcl 2020「TCL即将亮相AWE 2024,以超大屏、超高清演绎绿色智慧生活」
中国家电及消费电子博览会(以下简称AWE2024)将于3月14日至17日在上海新国际博览中心举办。TCL将通过TCL实业和TCL科技两大主体,聚焦智能终端、半导体显示、新能源光伏三大核心...
日期:03-12
京东618推出2元包邮活动 5月31日晚8点正式开始_京东2元商品
5月28日 消息:在2024年京东618启动发布会上,京东宣布,从5月31日晚8点开始,京东618大促正式拉开帷幕。为了让消费者能更直接地感受到优惠,京东特别推出了百亿补贴和便宜包邮等活...
日期:05-28
愿平安!大连地震登上热搜第一:3.7级_大连地震情况
9月11日消息,今日晚间,微博话题大连地震”登上热搜榜第一名。ipadmini2屏幕供应商据中国地震台网正式测定,09月11日21时26分在辽宁大连市普兰店区(北纬39.42度,东经122.21度)发生3...
日期:09-12
微软市场份额占比_微软Bing美国市场份额首次出现增长停滞现象
(马文) 北京时间6月11日消息,据国外媒体报道,互联网流量监测公司ComScore当地时间周五下午发布的研究报告显示,5月份谷歌美国搜索引擎市场份额从4月份的65.4%增长至65.5%,仍然位...
日期:07-30
自播占比超50%,为什么越来越多的品牌都开始「自播」?「商家自播好处」
声明:本文来自于微信公众号 晏涛三寿(ID:yantao-219),作者:晏涛,授权转载发布。又是一年618电商节,你有没有发现一个现象?越来越多的品牌开始不找网红主播合作,而是选择自己直播卖...
日期:06-07
荣耀9的像素是多少万像素「荣耀90系列全新发布,全系标配2亿像素写真相机影像升维」
通信世界网消息(CWW)2023年5月29日,荣耀发布全新一代数字系列手机——荣耀90系列。该系列包括荣耀90 Pro与荣耀90两款机型,融合科技、艺术与时尚至美,再一次为消费者带来领跑智能...
日期:05-29
腾讯会议退出会议会被发现吗「腾讯会议崩了上热搜 页面提示:会议发生异常请重新加入会议」
12月12日 消息:就在刚刚,话题#腾讯会议崩了#登上微博热搜。据了解,有大量网友反馈称,腾讯会议出现了宕机的情况。页面显示“会议发生异常(错误码:-170),请重新加入会议。”ipadpro...
日期:12-12
不拍蒜也断?张小泉斩骨刀斩骨时断裂 客服:与使用力度、角度有关
去年7月,知名老字号品牌张小泉因消费者投诉菜刀拍蒜断裂”引发舆论热议,该事件也入选中消协2022年十大消费维权舆情热点”。令人意外的是,近日,又有消费者遇到张小泉菜刀断裂的...
日期:03-29
字节推多模态理解和图像定位模型LEGO 具备精准定位的能力_lite模型 字节跳动
1月15日 消息:LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。同时,LEGO还具备精...
日期:01-15
暴雪游戏官网活动「暴雪游戏回归国服 网易暴雪合作新变化:开启下一个篇章」
暴雪官方今日正式宣布,与网易公司恢复了合作,暴雪游戏即将重返国服,让广大玩家再次体验到这些备受喜爱的游戏作品。据悉,暴雪娱乐与网易公司在过去超过15年的合作基础上,达成了更...
日期:04-10
索尼苹果都是过去式!网友列4大原因:小米将成全球电子消费品的新王
快科技9月7日消息,近日有网友给出了小米将是全球电子消费品新王的观点,并且还列出了四个原因,大家觉得如何?按照相关论点,小米集团正从轻资产的互联网模式创新,转变为新一代电子消...
日期:09-08
iQOO 11S搭载鸡血版骁龙8 Gen2:CPU狂飙至3.36GHz「iqoo8pro 11ultra」
数码闲聊站透露,iQOO 11S将搭载高通鸡血版骁龙8 Gen2移动平台,这是目前高通公司最强的5G SoC芯片,让iQOO 11S成为了最强悍的骁龙手机。据悉,鸡血版比普通版的CPU频率更高,最高达...
日期:05-27
2021京东q2财报「京东Q2财报解读:零售周期仍处低谷,强化供应链、发力同城零售」
  ;杨雪梅  8月23日,京东集团发布截至6月30日的2022年第二季度财报。华为型号是sea -al10 nova5 pro  整体来看,京东集团二季度表现喜忧参半,营收和净利润均超市场预期,但...
日期:08-25
帮商家开通抖音团购赚钱「商家涌入抖音团购真相:先“交学费”,后赚钱」
声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:杨晓鹤,授权转载发布。2022年,要说还有哪些市场红利,短视频平台上做本地生活服务可能算一个。此前据36氪报道,抖音生活服务...
日期:11-25
Google垄断案要有结果了: 270亿美元罚款在等待「美国司法部和八个州起诉谷歌(GOOG.US,GOOGL.US) 要求拆分广告技术业务」
智通财经APP获悉,美国司法部和八个州起诉了谷歌(GOOG.US,GOOGL.US),要求拆分这家搜索巨头的广告技术业务,因为该公司涉嫌非法垄断数字广告市场。司法部在提交给弗吉尼亚州联邦法...
日期:01-25
灵动amr「ai灵动键10.5 AI灵动键&AI辅助输入来了_ 魅族Flyme」
来源:中关村在线感谢网友缪尔赛思的线索投递!魅族20/20 Pro/20无界版三款机型即将开启Flyme10.5内测招募,时间为3月27日10:00:00-3月28日23:59:59。本次内测版本主要新增AI灵动...
日期:03-26
商汤科技推出AI数据分析工具“办公小浣熊”_商汤科技新一代人工智能计算与赋能平台
2月7日 消息:商汤科技再次创新,基于其强大的“日日新SenseNova4.0”大模型能力,成功推出了一款新型数据分析工具——“办公小浣熊”。继备受欢迎的“代码小浣熊”之后,“小浣熊...
日期:02-07
论腾讯的职级系统——看清自己的职场宿命「曝腾讯不再公开显示职级_不希望被官僚陋习捆住手脚」
9月29日消息,据媒体报道,近日腾讯控股发布全员邮件,宣布对《腾讯员工职业发展管理制度》进行新一轮更新。比亚迪DiLink 3.0此次改革的核心内容包括不再公开显示员工的专业职级...
日期:09-29
将青少年人工智能教育融入公益事业 KOOV探索教育公益新模式(青少年人工智能教育·koov 点赞)
  近日,由索尼(中国)有限公司联合中华少年儿童慈善救助基金会举办的KOOV机器人编程线上公益活动一经公布,立即受到了广大KOOVer的热烈响应及踊跃参与,再掀“公益编程热”。...
日期:07-14