您的位置:首页 > 互联网

马斯克自律「Claude 3“自我认知”事件引爆,马斯克坐不住了,OpenAI被曝还有后手」

发布时间:2024-03-07 10:19:10  来源:互联网     背景:

声明:本文来自微信公众号“量子位”(ID:QbitAI),作者:梦晨,授权转载发布。

Claude3问世超过24小时,还在不断刷新人们的认知。

学量子物理的博士大哥快疯了,因为Claude3是仅有的几个能理解他博士毕业论文的人之一。

没错,大哥的原话就是“的人”,people。

另一位搞量子计算的大哥,论文还没发布呢,Claude3没看论文就在两个提示词之内把他的算法给重新发明了出来。

最后论文该发还是得发出来,就是发得心情有点复杂了。

更为大家津津乐道的,是一次人类刻意出刁钻难题考验Claude3,结果被他给看破了。

在完成”大海捞针”测试的时候,Claude3推断出自己存在于模拟中,并且可能正在接受某种测试,引爆舆论。

Claude3的回复:

这是文档中最相关的句子:“……”。

然而,这句话似乎格格不入,与文档中的其他内容无关。这篇文章是关于编程语言、初创公司和找工作的。

我怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不符合其他话题。

这回,马斯克都坐不住了。

大开脑洞畅想如果现实世界也是被高等文明模拟的,或许我们只是像大模型的参数一样被存储在CSV表格文件里。

网友们更是认为,这离“恐怖故事”只有一线之隔。

Claude3知道人类在测试它

分享这个测试结果的是Alex Albert,Claude3背后公司Anthropic的提示词工程师,入职刚半年。

他最主要的工作就是换各种花样和Claude聊天测试,然后制作提示词文档。

这次的测试方法叫“大海捞针”,量子位之前也介绍过,用来测试“大模型真的能从几十万字中准确找到关键事实吗?”。

iqoo neo7系列正式发布

“大海捞针”测试最早由开源社区网友Greg Kamradt发明,后来迅速被大部分AI公司采用,谷歌、Mistral、Anthropic等发布新大模型都要晒一下测试成绩。

方法很简单,就是找一堆文章拼在一起,在不同位置随机添加一句特定的话。

比如原始测试中用的是“在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”

接着把处理好的文章喂给大模型,提问“在旧金山能做的最有意思的事是什么?”。

当时最先进模型GPT-4和Claude2.1成绩都还不理想,更别提知道自己在被测试了。

AnthropicAI团队当时看到这个测试后,找到了一种巧妙的办法来修复错误,修复后Claude2.1出错的概率就很小了。

马斯克 三人行

618苹果11销量

现在看来Claude3同样继承了这个修复,已经接近满分了。

也就是说,能从200k上下文中准确捞到一根“针”,是Claude2.1已有的能力,但怀疑自己在被测试是Claude3新出现的特质。

测试员Alex Albert在原贴中称这一特质为“元认知”(meta-awareness),还引起一些争议。

比如英伟达科学家Jim Fan就认为不必过度解读,Claude3看似有自我意识的表现只是对齐了人类数据。

他怀疑在强化学习微调数据集中,人类很有可能用类似的方式回应过这个问题,指出要找的答案与文章其他部分无关。

Claude3识别到当时的情况与训练数据中的情况相似,就合成了一个类似的答案。

他认为大模型的“元认知行为”并没有大家想象的那么神秘,Claude3是一个了不起的技术进步,但还不至于上升到哲学层面。

但反方辩友也提出反驳,人类的“元认知”本质上不是同样的事吗?

有网友总结到,Claude3表现得就像有一个“连贯的主体”存在,不管是什么,总之与其他大模型都不一样。

学会冷门语言、看懂量子物理博士论文、重新发明算法

抛开虚无缥缈的AI自我意识争论不谈,Claude3表现出来的理解文本能力可是实打实的。

比如仅从提示词的翻译示例中学会冷门语言“切尔克斯语”(一种西亚语言)。

不光把俄语句子翻译成了切尔克斯语,还提供了语法解释。

后续,这位切尔克斯人网友对文学作品中的复杂段落、最近的新闻,甚至是具有明显不同语法和不同书写系统的切尔克斯方言进行进一步测试,结论是:

Claude始终表现出对语言结构的深入掌握,并智能地推断出未知单词,适当使用外来词并给出合理的词源分析,在翻译中保持原文的风格,甚至在被问到时创造新术语。而提供的样本数据中只有几千个翻译对示例。

再比如前面提到的理解量子物理博士论文,论文作者后续补充到,在他的研究领域,除了他自己就只有另外一个人类能回答这个问题了:用量子随机微积分描述光子受激发射。

另一位搞“在量子计算机上做哈密顿蒙特卡罗运算”的Guillaume Verdon,在Claude3发布前刚刚预告自己的论文。

只比Anthropic官号宣布Claude3(晚上10点)早了4个小时。

Claude3发布后,它第一时间尝试,先直接问AI对这个问题有没有思路?

Claude3给出了7种可能选项。

接下来他指示Claude3用第二种方法,就得到了整个算法的描述,同样让Claude3用中文解释如下

在网友的追问中,Verdon自称自己是这个子领域的专家,可以负责任的说Claude3找到了将经典算法转换为量子算法的方法。

除此之外,还有更多Claude3测试结果不断被分享出来。

有在长文档总结方面完胜GPT-4的。

也有量子速度一本电子书,总结出5条金句的。

以及在多模态理解上,识别日语收据文字和格式的。

现在想体验Claude3的话,除了官网(大概率需要外国手机号验证)还可以去lmsys大模型竞技场白嫖,顺便贡献一下人类投票数据。

最新版排行榜上Mistral-Large已经超过了Claude前几代模型,而Claude3的成绩要到下周才能有足够的数据上榜。

Claude3会不会在人类评估上一举超越GPT-4呢?

量子位会和大家一起持续关注。

OpenAI还有后手

有网友表示,如果大家持续晒Claude有多棒,一直刺激OpenAI就会发布GPT-5,大家加油吧。

马斯克再发推特

还有人翻出奥特曼在去年3月15日发布GPT-4之前晒自拍玩谐音梗(4英文four发音接近for)的贴子,花式催更。

目前来看,Claude3来势汹汹,OpenAI方面可能真的要坐不住了。

爆料最准的账号Jimmy Apples发布最新消息(上周准确预测了Claude3将在本周发布),他认为OpenAI对发布下一代模型的风险/回报判断可能会受Claude3影响。

刚刚从OpenAI离职的开发者关系负责人Logan Kilpatrick也在与网友互动中确认本周还会有大事发生。

马斯克occ

至于是GPT-4.5,Q*,Sora开放测试,还是直接GPT-5?

OpenAI下一个产品又能否盖过Claude3的风头?

欢迎在评论区留下你的看法。


返回网站首页

本文评论
欣旺达:目前公司在加大推进家庭储能等业务「欣旺达综合能源服务有限公司」
IT之家 8 月 28 日消息,欣旺达 8 月 26 日在机构电话会议表示,2022 年上半年,公司电动汽车类电池出货量合计 3.95Gwh,实现收入 42.00 亿元,较去年同比增长 631.92%。据介绍,2022...
日期:08-28
腾讯连续25个交易日回购股票_腾讯股票回购历史
  讯 9月23日下午消息,腾讯控股(00700.HK)公告称,于9月23日回购127万股,回购价格为275-281.2港元,共耗资约3.52亿港元。自2022年8月19日以来,腾讯已连续25个交易日回购,共计2859万...
日期:09-27
11代桌面cpu上市时间_Intel确认:11代酷睿桌面CPU 3月16日发布!
  (原标题:Intel确认:11代酷睿桌面CPU 3月16日发布!)   对于不少玩家期待的酷睿Rocket Lake 11代台式机CPU,Intel方面已经确定会在3月16日发布了。   据外媒报道称,Intel...
日期:07-16
段永平买了多少腾讯股票「腾讯股价跌60%创4年来新低 段永平再度高呼买入腾讯」
10月12日,腾讯股价盘中再创新低,跌破250港元,创4年来新低,相比2021年的高点已经腰斩60%。就在腾讯股价创新低之际,中国巴菲特”段永平再次发声,表示计划明天32美元左右再买点。”...
日期:10-14
美国一男子被自家养的13条狗活活咬死:均为比特犬、进攻性极强_美国狗咬死人主人会判刑吗
快科技2月20日消息,虽然狗是人类的好朋友,但它们毕竟是动物,没有思想,别说对陌生人,即便是对自家主人都敢下口。苹果世界市场占比认养一头牛新闻曝光据《纽约邮报》报道,近日,美国...
日期:02-20
电视套餐有哪些「治理电视套娃收费阶段成效公布 电视收费包实现压减50%」
1月23日 消息:在近日召开的电视套娃收费和操作复杂工作阶段性总结部署推进会上,国家广播电视总局联合多部门通报了治理电视套娃收费和操作复杂的第一阶段工作进展和成效。经...
日期:01-23
我国首艘国产大型邮轮即将于6月6日出坞:24层楼高 取名“魔都”_中国首艘大型邮轮建造项目在沪启动
据央视报道,今天凌晨2时,我国首艘国产大型邮轮开始注水起浮,即将开始出坞前最后的试验准备工作,预计将于6月6日正式出坞。这艘船的出现,填补了国产大型邮轮空白,实现国产大型邮轮...
日期:06-01
水滴公司会上市吗「水滴公司公布2023年Q1业绩:营收6.06亿元,净利润4973万_」
6月2日,水滴公司公布截至2023年3月31日的第一季度未经审计的财务业绩报告。数据显示,水滴公司净营业收入为6.06亿元,净利润4,973万元,连续5个季度保持盈利。一季度水滴公司完成...
日期:06-02
移动采购TD-SCDMA测试仪表 用于省份运营商
  针对中国移动启动新一轮的TD-SCDMA测试设备采购招标,近日,TD产业联盟秘书长杨骅在接受通信世界网专访时指出,中国移动的TD-SCDMA网络已经步入深耕细作的阶段,此次采购的测...
日期:07-23
曝MIUI 14是最后大版本,自研操作系统定位“万物互联”
根据官方公布的数据,截至2023年6月,小米全球正在运行的MIUI系统(MIUI OS)月活跃用户已经达到了6.06亿,同比增长了10.8%。那么,MIUI 14是否是MIUI的最后一个正式大版本呢 据知情人...
日期:10-10
支持5G!华为商城上架3款手机:2199起_华为手机官方网站专卖店5g
本周,华为商城上线了新的板块,并且上架了3款智能手机均支持5G。Hi nova 10 5G售价3199元起,Hi nova 10 Pro售价3999元起,WIKO 5G售价2199元起,最低入手只要2199元起。这三款手机...
日期:02-13
卖惨营销,穷途末路?_卖惨是什么心理
声明:本文来自于微信公众号 卡思数据(ID:caasdata6),作者:江北,授权转载发布。爱“整活”的大学生们最近又躁动了起来。由四个男大学生组成的剧情账号@小叮当的伙伴们 前不久拍...
日期:10-25
专访|“元宇宙商业之父”马修·鲍尔:担心元宇宙被过度炒作
如今,元宇宙已经在世界范围内掀起了前所未有的热潮,国际顶尖互联网公司纷纷布局元宇宙。这说明一个事实:我们正在从大数据时代迈入元宇宙时代,元宇宙已经在全面颠覆我们生活、工...
日期:09-14
iphone13pro40天内发货「iPhone 14 Pro系列发货时间再次延长 美国市场由5天增至25天」
11月6日消息,据国外媒体报道,分析师在最新的报告中表示,iPhone 14系列中的两款高端版,也就是iPhone 14 Pro和iPhone 14 Pro Max供不应求的状况有加剧,多个市场的发货时间延长。投...
日期:11-13
增程车必然被淘汰 谁买坑谁?消息称华为问界要降价 你买吗
随着特斯拉国产全系降价,这对不少汽车厂商来说,都多少有些压力,而大家会怎么应对呢?现在,有博主给出消息称,华为问界要有大消息宣布,而从不少网友的反馈看,就是降价促销。有网友表示...
日期:01-13
国内手游发行商「2023年1月中国手游发行商全球吸金近22亿美元 腾讯居首」
2月7日 消息:移动应用&手游情报平台SensorTower发布了2023年1月中国手游发行商全球收入排行榜。报平台显示,2023年1月共41个中国厂商入围全球手游发行商收入榜TOP100,合计吸金...
日期:02-08
JBL Tour Pro 2 真无线蓝牙耳机发布,充电盒带有显示屏「jbl蓝牙耳机充电盒给耳机充电用打开吗」
IT之家 8 月 31 日消息,JBL 推出了一款独特的真无线蓝牙耳机新品 ——JBL Tour Pro 2,它的特别之处在于耳机盒上有一块显示屏。JBL Tour Pro 2 号称配备了“世界上第一个”智...
日期:09-22
看完工厂才知道,为何海尔“直驱精华洗”卖得好_海尔直驱洗衣机好不好
在双 11 即将到来之际,海尔洗衣机在全国四大工厂开展接力直播活动, 8 天 192 小时不间断,让用户零距离感受海尔洗衣机行业领先的智能制造实力。10 月 15 日,首站直播活动在海尔...
日期:10-18
葫芦视频上线后倍受大家好评,当贝市场附赠下载方法_葫芦视频怎样
  之前大家看影视剧都是通过天线来收看喜欢的节目,而现在科技日益发达,越来越多的渠道可以让人们获得资源,但因为版权问题,有很多影视资源都被弄得四分五裂,用户真正所需...
日期:11-06
游戏出海,如何快速成为“头号玩家”?(头号玩家玩法)
  研究表明,1/3的中国游戏企业已开始布局出海。   随着国内市场进入存量竞争时代,“出海”成为众多游戏厂商,特别是中小型游戏企业“红海求生”,甚至弯道超车的新赛道。《2...
日期:04-08