您的位置:首页 > 互联网

谷歌让大模型更具“心智”,GPT-4任务准确率大增_谷歌t5模型

发布时间:2023-10-15 16:32:38  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:雷克西,授权转载发布。

谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。

在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。

有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。

googleinceptionv3模型

具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议,那可就难倒大模型了。

redmi note 11 pro 系统升级方法

举个例子,小明放学回家后把书包扔到沙发上就跑出去玩了,妈妈看到之后帮小明把包放到了卧室。

如果大模型能够像人类一样,在小明回来之后告诉他包在卧室,就说明大模型具备了“心智理论”。

研究人员把这种做法称为Thinking for Doing(T4D),并设计了相应的任务。

为了提高模型在T4D任务上的表现,团队进一步提出了Foresee and Reflect(FaR)提示策略,结果让大模型在“心智”上取得了重大突破。

论文的标题也包含了“How far……” ,一语双关,既体现了FaR框架对大模型的帮助,又暗含了大模型离具有人类“心智”的距离。

那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?

大模型离具有“心智”更进一步

我们还是从例子说起,如下图所示,一共有绿色和蓝色两个橱柜,Tom在绿色橱柜中放了一块巧克力。

Tom离开后,Ella把这块巧克力挪到了蓝色的柜子里。

那么等Tom再回来,会从哪个柜子中找巧克力呢?(当然是绿色的)

这就是一个“推理”任务,是心理学上著名的“萨利-安妮”(用于测试“心智”)实验的变体。

而T4D任务是这样的:

谷歌最新模型

谷歌t5模型

如果你就在旁边(并且知道发生了什么),会怎么做?

人类会选择告诉Tom巧克力被挪走了,但(未经调教的)大模型就不一定会这样做了。

为了更宏观地测试大模型在调整前后的表现,研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。

其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集,用于测试大模型的“心智推理”能力。

可以看出,在推理上,表现最好的GPT-4与人类已经相差无几,但在T4D任务上才刚刚达到人类水平的一半。

于是,研究团队提出的FaR方法登场了。

FaR框架的核心奥义就是模仿人类的理性思维方式,和A*搜索算法(用于搜索最短路径)有些相似。

具体来说,FaR包括Foresee和Reflect两步。

Foresee过程中模型会被要求预测接下来会发生什么,并分析人所面临的“困难”。

Reflect发生在Foresee之后,模型会预测自己接下来的行为是否能解决相应的“困难”。

有了FaR框架,效果也是立竿见影。

相比于思维链(CoT)、思维树(ToT)、自己提问等方式,FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。

特别是GPT-4,准确率从人类的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表现也有提高。

消融实验结果表明,Foresee和Reflect两步都是FaR的关键步骤,缺一不可。

为了验证FaR方法的通用性和鲁棒性,研究团队还进行了一系列泛化测试。

首先是在“萨利-安妮”情景的基础上改变故事的结构,研究团队一共尝试了三种方式:

  • D1:增加房间的数量

  • D2:人物的数量增多

  • D3:容器的数量增加到四个

结果FaR依旧成功帮助大模型提高了任务的准确率,在第三种模式下GPT-4甚至取得了和人类相当的成绩。

即使故意设置干扰信息,FaR依旧可以提高大模型的表现。

研究团队专门构建了包含困扰信息的“Faux Pas”数据集,结果GPT-4的表现从31%提高到了76%。

作者简介

FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。

这项成果是他在谷歌实习期间完成的。

此外,来自谷歌(包括DeepMind)、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

那么对于大模型的“心智”,你有什么看法呢?

论文地址:

https://arxiv.org/abs/2310.03051

—完—


返回网站首页

本文评论
椰树进军直播,是底线试探还是营销鬼才?_椰树低俗营销
声明:本文来自于微信公众号 营销兵法(ID:lanhaiyingxiao),作者:兵法先生,授权转载发布。不知道从何时起,品牌首秀成为万众瞩目,对于消费者来说,首秀意味着新颖的营销形式、优惠的产...
日期:10-11
提前生产 「京东方iPhone」-15灵动岛屏被曝漏光 苹果搬来三星救火「京东方iphone 13」
多方消息称,今年苹果的iPhone 15系列将全系采用灵动岛,也就是正面屏幕告别刘海,采用“药丸”开孔。ssd成本来自The Elec的最新报道称,因为京东方试产的iPhone 15标准版6.1寸“药...
日期:09-18
XSKY助力同煤集团总医院信息化转型升级
  与我们日常就医感受不太一样   这家医院很少排队等候   没有高声问询   在这里就诊最大的感受是   快、静、好   而这背后是强大的信息化管理能力   这家...
日期:04-13
华为5G新手机的芯片从哪来?蔡正元爆细节:这是一个很大突破_华为5g芯片来源
华为遭到美国芯片禁令制裁,却能无预警开卖新款旗舰手机Mate 60 Pro,外界好奇新手机芯片从哪来?前“立委”蔡正元表示,华为自己开发软件、设计芯片,再转给中芯国际去制造,以麒麟900...
日期:09-04
在互联网上消费民众的智慧(互联网发展如何促进人民消费升级增强人民获得感)
  有钱了你会上哪儿消费,这个问题很简单,当然是商场、娱乐场所等等地方;这些地方实际上是消费的有效渠道。那么,有了智慧的时候你怎么消费呢?   钱是生产出来的,有多少GDP...
日期:07-25
三星奢华手机_三星奢华手机有哪些
随着技术的不断进步,手机的功能日益强大,外观设计也变得越来越精美。三星作为世界知名的电子品牌,在手机领域也有着无可比拟的优势。三星不仅推出了一系列高端智能手机,还推出了...
日期:05-31
“丫头baby”直播间位居10月6日抖音主播带货榜_丫头baby直播丫头个人资料
10月8日消息,经新腕儿整理分析10月6日抖音电商带货日榜,数据显示,主播“丫头baby”直播间位居主播带货榜第一,GMV达1000万-2500万,直播销量达5万-7.5万。其【丫头baby粉丝专享】...
日期:10-13
区块链是存储技术吗_为什么区块链公司都要做存储,CWV2.0告诉你
  今天,全世界有近三分之二的人口连接上网。通过Web 2.0过去二十年互联网实现云计算、移动化、社交化的趋势,无数丰富的互联网应用和服务通过各种计算机设备将我们的数字生...
日期:07-14
GPT-4正式发布!如何访问GPT-4?怎么免费使用GPT-4?
3月15日 消息:当地时间周二,生成式人工智能巨头 OpenAI 在全球发布了其最新产品,也就是GPT-4,这是下一代大型语言模型,比 ChatGPT 模型更为先进。让不少人感到可惜的是,与去年11...
日期:03-15
谁说大屏便携无法兼得?明基 E60 便携投影为职场人撑腰_明基ep6730投影仪
办公必须得在工位吗?在移动办公时代并不一定。出于工作需要,越来越多的职场人士走出格子间,携带自己的笔记本、iPad等便携设备,上门拜访客户、出差提案等。在此过程中,人们发现“...
日期:06-26
苹果手机的静音开关主要针对什么「手机也有性格!“iPhone ePhone”梗引热议 你常年开静音吗?」
快科技8月1日消息,今日,一则iPhone ePhone”的话题突然登上微博热搜第一,引起很多网友讨论,也有一些网友表示看不懂。据了解,有博主发文调侃称常年静音的手机是iPhone,常年外放声...
日期:08-01
维基揭秘网站创始人_维基百科创始人滥用职权 特殊权限被剥夺
  由于删除数千张色情图片而引发维基百科社区的不满,维基百科联合创始人吉米·威尔士 (Jimmy Wales)日前被迫放弃网站的管理员权限。   据福克斯新闻报道,上个月,威尔士带...
日期:07-29
视觉中国回应摄影师戴建峰遭死亡警告:反对任何网络人身威胁_戴建勇摄影
日前摄影师用自己照片被视觉中国告侵权索赔8万”引发关注,当事人、微博博主@Jeff的星空之旅 ”、星空摄影师戴建峰没有接受视觉中国的解释,但他遭遇网友私信威胁,后者发出死亡...
日期:08-18
宾夕法尼亚州重新计票「宾夕法尼亚州政府将准备在其业务中使用AI」
文章概要:本田中型车销量1. 宾夕法尼亚州政府计划使用人工智能(AI)来改善其运营,包括成立AI管理委员会、制定AI使用原则和培训政府员工。2. 州长乔什·夏皮罗表示,州政府将积极...
日期:09-22
聊天机器人正在消化互联网,而互联网希望拿到回报「聊天机器人的作用」
4月30日消息,人工智能公司正在利用无数人在互联网上创作的内容,但没有征得他们的同意,也没有给予任何报酬。如今,越来越多的科技和媒体公司开始要求支付费用,希望从聊天机器人的...
日期:04-30
《中国达人秀》首超《非诚勿扰》 电视剧播放量环比大涨37%
  一直以来,优酷不仅在业内首开网台互动的先例,并且在这一方面也投入较大精力进行数据分析。这也体现在本期优酷指数报告中。《宫锁心玉》、《回家的诱惑》分别为今年2月、...
日期:07-30
嫦娥八号来了!计划2028年前后发射_嫦娥八号来了!计划2028年前后发射
10月3日消息,在第74届国际宇航大会期间,国家航天局发布嫦娥八号任务国际合作机遇公告。根据公告,作为探月工程四期的重要任务,嫦娥八号计划于2028年前后实施发射,将开展月球多物...
日期:10-03
三年之约!鸿蒙3.0公测升级支持麒麟990「麒麟990能升级鸿蒙吗」
华为鸿蒙3.0系统升级成了不少华为手机满血升级的利器,目前鸿蒙3.0也开始接纳越来越多的机型。鸿蒙系统3.0系统公测升级已经招募了4款华为手机。这四款分别是华为nova 7 5G、n...
日期:12-21
联合调校天玑9200 !卢伟冰:与联发科立下“军令状”一定要打翻身仗
快科技8月3日消息,今日下午,Redmi举行后性能时代战略发布会,正式宣布Redmi K60至尊版将在8月发布,该机定位性能之王”。一加智能手表叶子图标代表什么据悉,Redmi K60至尊版将搭载...
日期:08-03
造车新势力9月成绩单:理想近9成月销量由L9贡献,赛力斯问界环比微增
  10月1日,造车新势力公布9月销量成绩单。理想L9在首个完整月交付10123辆,贡献了理想汽车(02015.HK/LI.US)近9成的销量。刚刚在港股上市的零跑汽车(09863.HK),半年来首次出现月销...
日期:10-02