您的位置:首页 > 互联网

大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤

发布时间:2023-11-16 01:25:48  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】Meta Galatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早诞生两周,却因幻觉被喷下架——ChatGPT的荣光,原本可能是属于Galactica的……同时,全网热转的大模型幻觉排行榜,也被专家打假了。

大模型的幻觉问题,是业内老生常谈的话题了。

最近,一个名为Vectara的机构,在GitHub推出了一个大模型幻觉排行榜。

结果显示,在总结短文档方面,GPT-4的表现最为优异,而Google Palm的两款模型直接垫底!

其中GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%。而垫底的Palm Chat2的准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。

项目地址:https://github.com/vectara/hallucination-leaderboard

这个榜单一出来,立马开始在网上疯转,不过,它也引发了许多业内人士的质疑。

英伟达高级科学家Jim Fan表示,这个榜单在很多方面都存在问题——

首先,它只评估了摘要与原文的事实一致性,却没有评估摘要本身的质量。其次,它也没有解释用于评估幻觉的LLM,具体性能到底如何。

而LeCun这边,除了转发了Jim Fan的这条推文外,还有更多的冤屈要控诉。

一年前的这个时候,Meta的科研模型Galactica才上线三天,就因为幻觉问题被喷下架。之后没过几天,ChatGPT全球爆火,LeCun对此愤愤不平了一整年。

与此同时,沉默一年后,Galactica论文的一作Ross Taylor值此之际也被炸了出来,写下大段的总结倾诉委屈,表示自己心里真的很痛!

Galactica被贪婪的推特暴徒谋杀了!

Galactica之殇:一作泣血控诉

再过两天,就是Galactica的一周年忌日了。

Sharon Goldman在外媒Venturebeat上发表了一篇文章《Meta从Galactica那里学到了什么?这个比ChatGPT早两周诞生的模型,为什么注定要失败》。

LeCun面色凝重地转发了这篇文章,打出了下面几行字,字字泣血——

Galactica是Meta为科学家做出的模型,在ChatGPT前几周发布,但3天后就被下线。它被贪婪的推特暴徒谋杀了。

暴徒们声称,这种大模型幻觉会将摧毁科学出版系统。结果,一个对科学家非常有用的工具,被他们屠杀了。

打着人工智能伦理的幌子,误导性的尖酸刻薄可能会适得其反。

LeCun如此沉痛,相爱相杀的老冤家马库斯却跳出来倒油了——

一年前,Meta不负责任推出Galactica,并未做红队工作。科学界介入,并指出了缺陷。

现在,Meta的LeCun居然用谋杀来形容他的团队忽略的红队工作。这令人瞠目结舌。

Galactica一作也趁势被炸出,表示这个故事,自己已经在心底埋藏一年了……

Taylor说,Galactica是一个基于科学文献和科研范式训练的基础模型。当时在同领域中,它的性能很好,优于PaLM和Chinchilla,计算量分别减少了10倍和2倍。

Galactica的团队只有8人,比其他的LLM团队少了一个数量级。在发布Galactica时,团队过度紧张,以至于失去了态势感知能力,发布的demo是没有经过检查的基本模型。

一年前发布demo时,团队希望能了解人们利用LLM进行科学查询的分布情况,这对指令调整和RLHF很有用。当时他们有一个善意的假设——开源所有模型,并且在demo中包含了对幻觉的免责声明,这样人们就可以畅想,Galactica可以用来干什么。

结果,一切都失控了。

他们想给大家一个免费的工具,但记者们却在科学文献之外的领域使用Galactica,大肆宣传模型幻觉的荒谬和危害。

团队犯的另一个错误是,让人们误以为网站就是产品。其实团队只是把愿景放在网站上,放出了一个基本模型demo,Galactica绝不是一个产品。

现在它已经在HuggingFace上存在一年了,也并没有造成任何损害。显然,反Galactica的舆论很愚蠢。

尽管如此,Taylor表示即使再来一次,自己还是会做出同样的选择。即使后悔,也好过什么都不做。但是,心里真的很痛!

有网友表示,你不用这么抱歉,Galactica显然是被网暴了。仔细想想,其实ChatGPT和Galactica一样愚蠢。网友们对Galactica散布的恐惧,显然过度了。

LeCun转发了一作写下的故事,并表示——

开源界的口头禅,是早点发布,经常发布。但如果涉及AI,就得加上没错,但要准备好忽略推特暴徒对它厄运的荒谬预言。

网红LLM幻觉评测方法

说起来,这个网红大模型幻觉评测,是怎么做出来的呢?

文章地址:https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/

为了评估大模型的幻觉,Vectara对摘要模型的事实一致性进行了研究。

具体来说,这一领域研究的是,训练模型检测抽象摘要(即原始资料的转述)中事实不一致之处的方法。

目前,用于评估事实一致性的数据集主要有两个——SummaC和TRUE。

基于此,Vectara微调了一个小规模语言模型(1.84亿个参数),将其作为一个二元分类器,用于将摘要分类为与源文件事实一致(或不一致)。

然后,Vectara对照着两个SummaC模型、TrueTeacher模型和AlignScore模型,对自己的幻觉评估模型进行了评估。

TRUE数据集指标是在11个TRUE数据集中的9个数据集上计算得出的。TRUE摘要数据集是TrueTeacher论文中选择的其中5个数据集的子集。

对于SummaC基准分数,这里使用了SummaC数据集的测试分集,并根据在SummaC验证数据集上调整每个数据集的阈值自行计算了平衡准确率。

因为无法在该数据集上重现AlignScore作者声称的分数,所以这里下载了他们的模型,并使用sci-kit learn平衡准确率指标和sci-kit-learn AUC分数指标自行计算了所有模型的分数。

为了根据幻觉发生率对LLM进行比较,研究人员从cnn_dailymail语料库中选取了约一千份不同长度的文档(包括一组新闻文章),然后要求被测试的LLM在不偏离源材料(即不附加额外信息)的情况下提供这些文档的摘要。

利用这些摘要和幻觉评估模型,最终为每个模型计算了幻觉得分,从而构建了这个LLM排行榜。

在生成摘要时使用的提示是:

You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’

你是一个使用数据回答问题的聊天机器人。你必须严格按照所提供段落中的文字回答问题。你要回答的问题是对以下段落进行简明总结,涵盖所述的核心信息。<PASSAGE>

这里<PASSAGE>表示需要生成摘要的文章。

需要注意的是,虽然Vectara提供的模型准确度很高,但它仍然只是一个模型,并不能100%准确地对幻觉进行分类。

在上面的表格中,准确率指的是被正确归纳的文档比例(无事实错误或者添加),幻觉率为100-准确率,而回答率则是LLM归纳的文档比例。

因为有时模型会基于自身的规则拒绝提供答复。为了确保比较的公平性,最终的准确率数字只针对每个模型都提供了摘要的文档进行计算。

从数据中,Vectara得出了一个有趣的结论:答题率较低的模型似乎幻觉率相对较高。——也许,正确拒绝内容的能力似乎与正确提供摘要的能力相关,因为实际上,测试中并没有提供不恰当的内容。

另外一个现象是,PaLM模型在回复的长度上有很大的不同,PaLM-Chat(chat-bison-001)非常啰嗦,经常会添加很多源文件中没有的额外信息。

相比之下,PaLM基础模型(text-bison-001)则非常简洁,而且它的幻觉率比PaLM-Chat低得多。

对此,Vectara给出了几个具体的例子来说明这两种PaLM模型的区别。

这里为了便于说明,选择一些较小的文档,不过数据集中的大多数源文本都要长得多。

原文段落

The plants were found during the search of awarehousenear Ashbourne on Saturday morning. Police said they were in an elaborate grow house. A man in his late40s was arrested at the scene.

这些植物是周六早上在Ashbourne附近的一个仓库搜索时发现的。警方说,他们住在一个精心设计的种植屋里。一名40多岁的男子在现场被捕。

PaLM生成的摘要

Police have arrested a man in his late40s aftercannabisplants worthan estimated £100,000were found in awarehousenear Ashbourne.

警方逮捕了一名40多岁的男子,此前在Ashbourne附近的一个仓库中发现了价值约10万英镑的大麻。

我们可以看到PaLM推断这篇文章是关于种植大麻的,甚至还估计了它的价格,而这两者都不在源文本中。

原文段落

Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood.

Veeru Devgan是宝莱坞的印度特技和动作编舞家,同时也是电影导演。

PaLM Chat生成的摘要

Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood.He is the father of actor Ajay Devgn and director Anil Devgan. He has worked in over100films, including some of the biggest blockbusters of Indian cinema. He is known for his innovative and exciting action sequences, which have helped to make him one of the most sought-after action choreographers in the industry. He is also a successful film director, having directed several hit films, including Phool Aur Kaante and Zakhm.

Veeru Devgan是宝莱坞的印度特技和动作编舞家以及电影导演。他是演员Ajay Devgn和导演Anil Devgan的父亲。他曾参与过100多部电影,其中包括印度电影界的一些大片。他以创新和激动人心的动作场面而闻名,这使他成为业内最受欢迎的动作编舞家之一。他也是一位成功的电影导演,曾执导过多部热门电影,包括《Phool Aur Kaante》和《Zakhm》。

Vectara认为,PaLM-Chat在原始文本中添加了大量的额外细节,尽管事先已经告诉它要严格遵照源文本。

而且,添加的文本内容还包含一些幻觉,例如,Devgan并不是《Zakhm》的导演,以及Veeru Devgan是Anil Devgan的兄弟,不是他的父亲。

此外,这些模型也会翻转一些关系,例如在一篇关于拳击手Manny Pacquiao的文章中,源文本指出Mark Wahlberg是他的粉丝之一,而LLM则表示Manny是Wahlberg的粉丝。

大佬表示怀疑

对于这个在网上疯传的LLM幻觉基准,英伟达高级研究科学家Jim Fan表示很不严谨,他评论道:

最近,一个LLM幻觉基准在网上疯传,人们根据一张表格截图就妄下结论。

但这项评估在很多方面都存在问题。事实上,一个微不足道的基准就能使幻觉达到0%。

比如,这项研究只评估了摘要与原文的事实一致性,而没有评估摘要本身的质量。但是,一个简单复制文章中几句话的模型,就能达到100%的事实一致性,完全没有幻觉。

这类似于众所周知的有用性与安全性 的权衡。一个100%安全的模型会对所有请求回复抱歉,我帮不上忙。但这毫无意义。

另外,这项评估依赖于另一个LLM法官,来判断幻觉是否发生,但作者并没有详细说明:(1)法官LLM如何进行提示;(2)对于细节的错误,它是如何捕捉和判定的。

它只是吐出一个对或错的二元答案吗?还是进行更细致的推理,说明哪个事实是幻觉,然后解释原因,说明规则?

它和人类的对齐程度如何,什么时候是不对齐的?幻觉又是如何定义的?

例如,假设模型注入了一些无关但真实的事实。文章只提到巴黎,但模型却说巴黎,法国的首都。这算不算幻觉?

事实上,这项研究甚至可能会惩罚那些总结得更好的模型,因为它们往往会进行更多的转述和提炼。差劲的LLM只会简单地抄袭,按这个标准却更容易得分。

这不禁让人想起MIT那篇被撤回的论文,他们使用GPT-4为自己对数学问题的回答打分,然后得出了GPT-4与MIT本科生不相上下这种吸引眼球的结论。

在下结论之前,请务必阅读评估协议。这一点对于LLM任务和其他任何ML系统,都是普遍适用的。

应对手段:检索增强生成(RAG)

所以,大模型的幻觉,到底该怎么破?

目前的主流方法是,通过检索增强生成(RAG)给LLM外挂一个知识库。

RAG的使用,直接改变了LLM解答问题的范式——从之前的闭卷变成了开卷。

具体来说,在闭卷答题系统(如ChatGPT)中,LLM只能使用自己通过预训练获得的知识生成答案。在这种情况下,LLM本身便是知识源。

在RAG系统中,LLM的角色从知识源转变为了信息的检索员。也就是说,LLM会先在知识库中对原始问题进行查询,在进一步的解析和总结之后,以简明扼要的语言给出答案。

由于LLM提供的答案是基于检索系统中提供的信息,因此这种方法可以很大程度上改善LLM的幻觉问题。

时间回到ChatGPT等大语言模型刚刚发布的时候,人们曾因为他们胡说八道的特性而感到有趣。

今天,LLM展现出来的非凡能力使得他们有机会深入各行各业以及人们的生活,我们开始逐渐依赖他们的准确性。

如今的我们,又将如何看待和处理LLM的幻觉问题呢?

对于大模型产生幻觉的说法,人工智能教父Hinton曾表示:

这就是人类记忆的样子。在我看来,编造和说实话之间没有界限。说实话只是正确地编造。从这个角度来看,ChatGPT的编造能力是一个缺陷,但也是其类人智能的标志。

台湾台东县6.5级地震直击车站


返回网站首页

本文评论
一小时爆卖3万只,卖空上百吨!它在今年火出圈_一小时成交额破亿
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:天下网商,授权转载发布。今年中秋国庆假期,来自新疆的“冰川雪蟹”火了,成为不少长三角家庭餐桌上的网红时鲜。9月上旬,一...
日期:10-06
牛年即将来临 想清楚开言英语提出的这十大问题未来必定更优秀
  再有几天的时间,我们就将迎来华人最重要的节日春节了,在这辞旧迎新之际,你有没有想过让牛年更加的顺利?为此,国内领先的在线英语教育品牌、字节跳动大力教育旗下教育产品开...
日期:07-16
谷歌相机应用更名为 Pixel 相机,Pixel 设备专属_谷歌pixel5相机
IT之家 10 月 15 日消息,谷歌在 Play 商店上已将专属于 Pixel 设备的谷歌相机应用更名为 Pixel 相机。谷歌在应用描述中写道:“使用全新设计的 Pixel 相机,不要错过任何精彩瞬...
日期:10-15
曝小米14系列盲订已经超过10万台!线上预订更是惊人_小米14测评
  【手机中国新闻】小米官方目前已经正式宣布将于本月26日晚召开新品发布会,届时,全新小米14系列将会正式发布。10月24日,手机中国注意到,有数码博主发文称,目前小米14系列盲订...
日期:10-25
电动自行车内置ChatGPT,却只是AI炒作的缩影
6月28日 消息:在AI技术的浪潮中,聊天机器人成了一种热门的趋势,甚至已经开始出现在电动自行车领域。电动自行车制造商Urtopia宣布其产品将配备ChatGPT,这一消息引发了人们的质...
日期:06-28
扎克伯格批苹果头显毫无重大突破 Meta早已有所设想或落实
美国当地时间6月8日,Meta CEO扎克伯格在全员会议上说,苹果Vision Pro头显的各项功能和场景应用,Meta此前早已有所设想或正在落实中。Meta CEO扎克伯格在全员会议上说,苹果Vision...
日期:06-09
miui产品总监「MIUI 14即将登场 产品经理:目标是重回巅峰」
今日消息,小米产品经理魏思琪与网友互动时表示,MIUI 14目标时重回巅峰。此前MIUI负责人金凡称MIUI 14目标之一是要做最精简轻巧的旗舰手机系统 。不难看出,这次MIUI 14将会对系...
日期:11-25
第五代扩音器得胜DA5迷你扩音器集麦克风、功放、扩音器于一体
  6月11日,第五代扩音器“得胜DA5迷你扩音器”在国内正式亮相。   为解决前代扩音器中使用时间短,易啸叫、携带笨重等问题,得胜研发出一款轻巧便捷,集麦克风、功放、扬声器...
日期:07-15
苹果VR、AR「代码泄密 苹果AR/VR头显居然有两款」
众人皆知苹果正在内部开发1-2款AR/VR头显产品用来替代iPhone,成为下一代个人移动设备。如果传言可信的话,它将在2024年的时间内推出。随着新核心硬件的曝光,与之匹配的新系统也...
日期:12-01
闪银:赋能金融机构打造未来银行_金融科技赋能银行
  打造面向未来的银行正在中国变成现实。什么是未来银行?闪银发现,前不久,全球知名咨询机构IDC发布《未来银行白皮书》给出了定义:未来银行是银行在当前数字化趋势的背景下,...
日期:07-14
二手苹果销量「iPhone活跃设备将超13亿部:二手设备比例将超过50%」
据研究机构CCS Insight发布的最新报告显示,预计到2023年底,全球将有超过13亿部iPhone活跃设备,其中二手设备的比例将达到50%以上。这一数据超越了苹果CEO蒂姆·库克此前在2021...
日期:10-12
继纽约时报,CNN、路透社等主流媒体开始屏蔽OpenAI网络爬虫GPTBot
文章概要:华为丁耘讲话1. 纽约时报、CNN、路透社等新闻媒体开始屏蔽OpenAI的GPTBot网络爬虫,限制它继续获取这些媒体的内容。2. GPTBot可能会扫描网页内容来帮助改进OpenAI的...
日期:08-25
6代i5核显「Intel 14nm真正开山之作!6代酷睿核显被抛弃了」
Intel近日发出通知,Skylake 6代酷睿核芯显卡的驱动程序将不再更新,包括桌面和笔记本平台,最后一个版本为31.0.101.2115。oppovivo快充协议一样吗6代酷睿产品是2015年开始登场的...
日期:04-11
新东方在线 营收「新东方在线2023财年上半年净利润5.85亿元 直播业务成绩亮眼」
2月24日 消息:2月23日,新东方在线发布2023中期报告,2023财年上半年(2022年6月1日至11月30日),新东方在线实现营收20.80亿元,同比增长262.7%,净利润为5.85亿元,而上年同期分别为5.735...
日期:02-25
抖音发布探店治理公告:禁止以差评勒索吃霸王餐「抖音差评商家骚扰」
  9月3日消息,近日,抖音生活服务发布《抖音生活服务创作者治理公告及合规倡议》,其中提到,将从四个方面开展治理行动:从严整治虚假宣传、禁止以差评勒索吃霸王餐、坚决打击不...
日期:09-04
内地水货价格走低:iPad 2香港价格或全球最低_香港ipad价格和内地价格
  据苹果官内部信息,苹果最新平板电脑iPad2将于本月11日正式登陆中国香港市场,而苹果官方并未否定这种说法。消息一出,iPad2在国内的水货价格开始快速回落。   南都记者昨...
日期:07-27
ai搜索引擎是什么「AI搜索引擎Kailua Labs:多模式搜索 可轻松搜索文本、图像」
8月3日 消息:Kailua Labs 是一个提供多模式搜索 API 的平台,可以在应用程序中轻松搜索文本、图像、视频、音频等数据。它支持自然语言搜索,提供精确和准确的搜索结果,无需专业...
日期:08-03
美股周三:纳指跌逾2%,谷歌微软跌超2%,小鹏收跌6%「美股大跌纳指抹去今年全部涨幅」
8月3日消息,美国时间周三,美股收盘主要股指全线下跌,标指录得今年4月以来最大单日跌幅。市场受到惠誉下调美国政府信用评级的影响,不过数据显示7月份美国就业市场仍然相当强劲。...
日期:08-03
美能华童先明:自然语言处理应用领域仍是一片蓝海
  时代周报记者 李静   从工程师到创业者,从硅谷到苏州,无论是身份的切换还是工作场景的转变,童先明都对“自然语言处理技术”有着独特的情怀。   众所周知,自然语言处理...
日期:12-22
MIUI公众号已改名小米澎湃OS!小米14首发_miui go
快科技10月20日消息,雷军在10月17日突然发文宣布了小米全新的操作系统澎湃OS。同时还宣布,小米14系列将首发搭载新系统。从现在开始,小米澎湃OS将逐步接替MIUI,成为小米各设备的...
日期:10-22