您的位置:首页 > 互联网

大模型就是造梦机,Karpathy一语惊人!人类才是幻觉问题根本原因

发布时间:2023-12-10 16:55:26  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子 润,授权转载发布。

幻觉,早已成为LLM老生常谈的问题。

然而,OpenAI科学家Andrej Karpathy今早关于大模型幻觉的解释,观点惊人,掀起非常激烈的讨论。

在Karpathy看来:

从某种意义上说,大语言模型的全部工作恰恰就是制造幻觉,大模型就是造梦机。

另外,Karpathy的另一句话,更是被许多人奉为经典。他认为,与大模型相对的另一个极端,便是搜索引擎。

大模型100%在做梦,因此存在幻觉问题。搜索引擎则是完全不做梦,因此存在创造力问题。

总而言之,LLM不存在幻觉问题。而且幻觉不是错误,而是LLM最大的特点。只有大模型助手存在幻觉问题。

对此,英伟达高级科学家Jim Fan分享了自己的看法,令人着迷的是,最好的LLM可以通过切换到『工具使用模式』来『决定』何时做梦,何时不做梦。网络搜索是一种工具。LLM可以动态调整自己的『dream% 超参数』。GPT-4试图做到这一点,但远非完美。

亚利桑那州立大学的教授Subbarao Kambhampati也跟帖回复了Karpathy:

LLM一直在产生幻觉,只是有时他们的幻觉碰巧和你的现实一致而已。

而提问者是否能够让幻觉和自己的现实一致,很大程度取决于提问者自己对产生内容的检查能力。

基于这个认知,他认为,所有想要将LLM的能力拟人化的尝试都只是人类的一厢情愿,将思考、想法、推理和自我批评等拟人化概念强加在LLM上都是徒劳的。

人类应该在认清LLM能力的本质基础之上,将它当作一个补充人类认知的矫正器,而不是潜在的替代人类智能的工具。

当然,讨论这种问题的场合永远少不了马老板的身影:人生不过就是一场梦。

感觉下一句他就要说,我们也只是生活在矩阵模拟之中。

Karpathy:LLM不存在幻觉问题,LLM助手才有

对于大模型饱受诟病的幻觉问题,Karpathy具体是如何看的呢?

我们用提示来引导这些梦,也正是提示开启了梦境,而大语言模型依据对其训练文档的模糊记忆,大部分情况下都能引导梦境走向有价值的方向。

只有当这些梦境进入被认为与事实不符的领域时,我们才会将其称为幻觉。这看起来像是一个错误,但其实只是LLM本就擅长的事情。

再来看一个极端的例子:搜索引擎。它根据输入的提示,直接返回其数据库中最相似的训练文档,一字不差。可以说,这个搜索引擎存在创造力问题,即它永远不会提供新的回应。

大模型100%在做梦,因此存在幻觉问题。搜索引擎则是完全不做梦,因此存在创造力问题。

说了这么多,我明白人们真正关心的是,不希望LLM助手(ChatGPT等产品)产生幻觉。大语言模型助手远比单纯的语言模型复杂得多,即使语言模型是其核心。

有很多方法可以减轻AI系统的幻觉:使用检索增强生成(RAG),通过上下文学些将做梦更准确回溯在真实数据上,这可能是最常见的一种方法。另外,多个样本之间的不一致性、反思、验证链;从激活状态中解码不确定性;工具使用等等,都是热门且有趣的研究领域。

总之,虽然可能有些吹毛求疵,,但LLM本身不存在幻觉问题。幻觉并非是缺陷,而是LLM最大的特点。真正需要解决幻觉问题的是大语言模型助手,而我们也应该着手解决这一问题。

11代酷睿cpu集显用什么驱动

LLM是造梦机,请停止一厢情愿的拟人化

来自亚利桑那州立大学的AI科学家Subbarao Kambhampati教授,把自己的研究总结成了一篇X上的长文。

他认为产生不同的认知(包括幻觉)就是LLM本质能力,所以不应该对于LLM产生过于理想化的期待。

链接地址:https://twitter.com/rao2z/status/1718714731052384262

在他看来,人类应该将LLM视为强大的认知模拟器,而不是人类智能的替代品。

LLM本质上是一个令人惊叹的巨大的外部非真实记忆库,如果使用得当,可以作为人类强大的认知模拟器。

而对于人类来说,想要发挥LLM的作用,关键是如何有效地利用LLM,而不是在这个过程中不断用拟人化的企图来自欺欺人。

人类对于LLM最大的错觉就是我们不断地将LLM与人类智能相混淆,努力地将思考、想法、推理和自我批评等拟人化概念套在LLM之上。

这种拟人化是相当徒劳的——而且,正如很多研究中展现的那样——甚至会适得其反并具有误导性。

而从另一个角度说,如果我们不将通过LLM开发出达到人类水平的AI系统设定为唯一目标,就不用天天批判自回归LLM非常差劲(比如LeCun教授)。

LLM是可以非常有效地补充认知的模拟器,并没有天然包含人类的智力。

LLM在某些事情上能比人类做得好太多了,比如快速概括,归纳总结。

但是在做很多其他事情的能力上比人类又差太多了,比如规划、推理、自我批评等。

人类真正需要的也许是:

1.充分利用LLM的优势。这可以在LLM产品架构中加入人类或者其他具有推理能力的工具来强化LLM的优势。

2. 在某种程度上,人类水平的智能仍然是目前值得追寻的圣杯,保持开放的研究途径,而不是仅仅是堆叠算力,扩大自回归架构。

大模型幻觉,究竟从何来

前段时间,一个名为Vectara的机构,在GitHub推出了一个大模型幻觉排行榜。

结果显示,在总结短文档方面,GPT-4的表现最为优异,而Google PaLM的两款模型直接垫。

其中,GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%。Palm-Chat2的准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。

不过,这个榜单一出来,受到了许多业内人士的质疑。

OpenAI联合创始人兼研究员John Schulman曾在一次演讲——RL和Truthfulness – Towards TruthGPT,探讨了幻觉问题。

根据Schulman的说法,幻觉大致可以分为两种类型:

- 模型猜测错误

- 模式完成行为:语言模型无法表达自己的不确定性,无法质疑提示中的前提,或者继续之前犯的错误。

语言模型代表一种知识图谱,其中包含来自其自身网络中训练数据的事实,因此微调可以理解为学习一个函数,该函数在该知识图谱上运行并输出token预测。

举个例子,微调数据集可能包含星球大战属于什么类型影片这个问题,以及答案科幻。

如果这些信息已经在原始训练数据中,即它是知识图谱的一部分,那么模型不会学习新信息,而是学习一种行为——输出正确答案。这种微调也被称为行为克隆。

但是,如果答案不是原始训练数据集的一部分(也不是知识图谱的一部分),即使网络不知道答案,它便会学习回答。

使用实际上正确但不在知识图谱中的答案进行微调,从而教会网络编造答案——即产生幻觉。相反,用不正确的答案进行训练会导致网络隐瞒信息。

网友激烈探讨

LLM 是一个造梦机。多么美妙的一句话。如果我们人类也生活在更高维度创造者构造的梦境中,那么LLM将来是否也能递归地创造出做梦的机器?

另一位网友分享了他要求ChatGPT给自己的回复进行置信度评分时,ChatGPT给了90%,并且解释了原因:

我在回复末尾提供的置信度是一个估计值,反映了根据我所掌握的上下文和信息,我认为回复与您的询问的吻合程度。它不是通过精确的算法或公式计算出来的,而是根据问题的复杂性、所提供信息的清晰度以及我对所能获取信息的准确性和相关性的编程进行的主观评估。

其实对于幻觉的讨论本质上就是对于真理的讨论,也许并没有什么东西是绝对客观的真理。

当所需数据已经存可用时,并不总是需要搜索事实。然而,LLM面临的挑战在于其学习过程,这通常涉及一种破坏性数据压缩。解决这个问题——减少数据丢失,不仅能缓解幻觉问题,还能减少对大量训练数据集的需求。

事实上,我们的最终目标不仅仅是创造更多的LLM,而是实现真正的智能。虽然LLM通过语言理解提供了一瞥,但它们的根本缺陷是学习过程损害了数据完整性。理想的架构应该是在学习过程中保留数据,保持对原始信息的忠实,同时还能让模型发展和完善其智能。我假设这样的架构可能涉及复制数据而不是压缩数据。

每个LLM都是一个不可靠的叙述者,就其架构的本质而言,它是不可逆转的。

对于大模型幻觉问题的解释,你赞同Karpathy的看法吗?


返回网站首页

本文评论
海融护航暨中关村科学城北区创业合伙人招募计划 安方高科需求对接专场活动
  安方高科位于中关村科学城北区,是专业从事电磁兼容、电磁屏蔽和信息安全防护工程的国家级民营高新技术企业。   公司先后承担了国家“863计划”、“国家创新基金”和...
日期:01-04
开始从Facebook等公司挖人_Facebook暗中挖走谷歌中国多名工程师
  昨天,记者从业内知情人士处获悉,全球最大的社交网站美国Facebook已经悄然成立了亚洲项目团队,并不断在暗中接触谷歌中国的工程师,目前已经有多名谷歌中国的工程师加入Faceb...
日期:07-29
Waymo 决定暂停自动卡车技术的开发_waymo自动驾驶卡车
7月27日 消息:Alphabet 旗下的Waymo 决定暂停自动卡车技术的开发,并将重点放在网约车服务上。三星a52买2999元值不值据了解,该公司将推迟卡车运输商业化的时间表,并缩减该部门...
日期:07-27
《王者荣耀》宫本武藏全新水墨风皮肤“惊梅引”上线:天下第一剑客
快科技9月23日消息,宫本武藏新皮肤惊梅引”已经上线,全新水墨风,首周价格1350点券(首周结束后1688点券)。背景故事中,他是浪迹天涯的剑客,原本以为天下第一是剑道追求的终点,直到他...
日期:09-24
腾讯回应出售美团股权:不实!美团市值却跌掉千亿(腾讯收购美团股份)
《科创板日报》8月16日讯(记者 张洋洋) 今日午后,美团港股直线下挫,跌幅扩大至10%。此前有市场消息称,腾讯计划出售美团的全部或大部分股权,对此,腾讯方面回应《科创板日报》记者称...
日期:08-17
ChatGPT 的风,把“烟屁股”都吹上天了
声明:本文来自于微信公众号 字母榜(ID:wujicaijing),作者:毕安娣,授权转载发布。ChatGPT的热度丝毫没有下降的意思,从外界释放的爱意就能看出来:能攀亲带故最好,非亲非故的创造条...
日期:02-07
黄光裕的车图片_黄光裕“弃车保帅”
  21世纪经济报道记者 贺泓源 北京报道;  黄光裕已经做出了选择。  8月19日晚间,国美零售发布公告称,有条件向国美地产收购鹏融地产的全部股权。这笔交易实质是把国美创...
日期:08-24
国内 linux「中国Linux的逆袭之路,大崩溃到大翻盘,隐忍磨砺20年」
“陈棋德、苏哲、章文嵩、马涛、李勇、陈绪……没有一代人的努力会白费,为中国Linux奋进者们而歌。”作者 | 张进编辑 | 林觉民很多年前,拓林思作为一家事实上的中国公司,已经...
日期:04-20
企业网站建设服务_SiteServer CMS创新推出企业网站高标准服务体系
  最新数据报告显示,目前我国网民已超过4.2亿,2011年或将超过5亿。面对如此巨大的互联网市场规模,众多企业都纷纷建立企业网站进军电子商务,通过网络来宣传自己的公司和产品,...
日期:07-25
通信、续航已干翻苹果 赵明:荣耀还要比肩甚至超越最强的iOS系统
快科技4月28日讯,近日荣耀深圳研发实验室首次对外开放,荣耀CEO赵明也就技术研发上的思考和媒体交流。ipad pro攻略赵明透露,荣耀2022年研发投入的强度,占比接近收入的10%。放眼...
日期:04-29
章泽天怀孕随刘强东明州逛超市「刘强东与章泽天孩子」
  #章泽天怀第二胎# #章泽天怀孕随刘强东明州逛超市# 日前,有网友晒出在美国明尼阿波利斯市偶遇刘强东与章泽天一起逛超市的照片。照片中,章泽天身穿条纹针织裙,孕肚明显,疑似...
日期:10-01
栾晓维任中国电信副总经理、党组成员
2023/5/30 08:06 栾晓维任中国电信副总经理、党组成员   C114讯 5月30日消息 从中国电信官网获悉,中国电信集团新添一位副总经理。栾晓维任中国电信集团有限公司副总经...
日期:05-30
男士奢侈品鞋子:杰尼亚Zegna Triple Stitch引领非凡风尚
谈及男士奢侈品鞋子,这是大部分男人的向往和追求。在当今时尚界,奢侈品鞋子已经成为精英人士展现品位和个性的重要标志。对于追求品质和风格的现代男性而言,一双融合了精湛工艺...
日期:11-13
2019年工作报告背后   零售云的县镇振兴责任担当
  3月5日,2019年工作报告对2019年乡村振兴战略做出新的部署,要求通过建设乡村电商、发展乡村物流、完善乡村教育、增加就业、提振消费、健全便民生活设施等系列举措,加强脱...
日期:09-22
入选多个榜单年度最佳稳定器,看看是不是你正在用的那款?_性价比高的稳定器排行榜
  又到一年年底,很多国外行业网站都推出了各自的2019年度设备榜单。在三轴稳定器这个品类里,大疆如影 SC 成了榜单里出镜率最高的那款稳定器,刚好我也有一台。   Videoma...
日期:07-07
雅虎离职技术主管曝雅虎大量离职原因_雅虎裁员事件
  6月1日消息,据美国科技博客TechCrunch报道,雅虎前地理位置技术项目主管加里·盖尔(Gary Gale)于美国当地时间周一在一篇博客中透露,他将加盟诺基亚,并担任公司Ovi地理位置...
日期:07-29
马斯克放弃space「马斯克离开OpenAI内幕:大权独揽想法被拒 10亿美元打水漂」
4月10日消息,据semafor报道,OpenAI于2015年成立,起初是一家非营利组织,得到了马斯克和里德霍夫曼等亿万富翁科技名人的支持,他们曾以团体形式投资了10亿美元。据知情人士称,早在 2...
日期:04-10
去哪推酒店直销模式 能否打破携程“渠道垄断”_携程的营销渠道
  近一段时间以来声讨携程“垄断”酒店渠道的声音此起彼伏,而携程更是百口难辩。上周去哪酒店直销上线在一定程度上分散了人们的注意力;去哪网(www.quna.com )打破了传统...
日期:07-29
“校园之星”高校巡讲结束  搜搜持续深化高校布局(百度百科高校巡讲)
  近日,历时一月之久的腾讯"校园之星"2011年度互联网应用开发大赛前期的重要宣传环节--搜搜高层校园巡讲已经结束了,这标志着本届大赛即将进入复赛阶段。随着大赛后续工作...
日期:07-30
小米14U「12月1日见!小米13系列、MUI 14正式官宣」
今天上午,小米手机正式宣布,将于12月1日(本周四)晚七点召开新品发布会,推出小米13和小米13 Pro手机。小米13最快11月发布全旗舰配置官微表示,小米13 系列 & MIUI 14 新品发布会,正...
日期:11-29