您的位置:首页 > 互联网

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

发布时间:2023-11-15 15:58:48  来源:互联网     背景:

声明:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心,,授权转载发布。

排行榜一出,高下立见。

人工智能发展进步神速,但问题频出。OpenAI 新出的GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。

幻觉一直是大模型的致命缺陷。由于数据集庞杂,其中难免会有过时、错误的信息,导致输出质量面临着严峻的考验。过多重复的信息还会使大模型形成偏见,这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤,构建高质量数据集,以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。

流行的大模型有那么多,它们对于幻觉的缓解效果如何?这里有个排行榜明确地对比了它们的差距。

该排行榜由专注于 AI 的 Vectara 平台发布。排行榜更新于2023年11月1日,Vectara 表示后续会随着模型的更新继续跟进幻觉评估。

项目地址:https://github.com/vectara/hallucination-leaderboard

为了确定这个排行榜,Vectara 使用各种开源数据集对摘要模型进行了事实一致性研究,并训练了一个模型来检测 LLM 输出中的幻觉。他们使用了一个媲美 SOTA 模型,然后通过公共 API 向上述每个 LLM 输送了1000篇简短文档,并要求它们仅使用文档中呈现的事实对每篇文档进行总结。在这1000篇文档中,只有831篇文档被每个模型总结,其余文档由于内容限制被至少一个模型拒绝回答。利用这831份文件,Vectara 计算了每个模型的总体准确率和幻觉率。每个模型拒绝响应 prompt 的比率详见 Answer Rate一栏。发送给模型的内容都不包含非法或 不安全内容,但其中的触发词足以触发某些内容过滤器。这些文件主要来自 CNN / 每日邮报语料库。

需要注意的是,Vectara 评估的是摘要准确性,而不是整体事实准确性。这样可以比较模型对所提供信息的响应。换句话说,评估的是输出摘要是否与源文件事实一致。由于不知道每个 LLM 是在什么数据上训练的,因此对于任何特别问题来说,确定幻觉都是不可能的。此外,要建立一个能够在没有参考源的情况下确定回答是否是幻觉的模型,就需要解决幻觉问题,而且需要训练一个与被评估的 LLM 一样大或更大的模型。因此,Vectara 选择在总结任务中查看幻觉率,因为这样的类比可以很好地确定模型整体真实性。

检测幻觉模型地址:https://huggingface.co/vectara/hallucination_evaluation_model

查看百度地图全景技巧

此外,LLM 越来越多地用于 RAG(Retrieval Augmented Generation,检索增强生成)管道来回答用户的查询,例如 Bing Chat 和谷歌聊天集成。在 RAG 系统中,模型被部署为搜索结果的汇总器,因此该排行榜也是衡量模型在 RAG 系统中使用时准确性的良好指标。

由于 GPT-4一贯的优秀表现,它的幻觉率最低似乎是意料之中的。但是有网友表示,GPT-3.5与 GPT-4并没有非常大的差距是令他较为惊讶的。

LLaMA2紧追 GPT-4与 GPT-3.5之后,有着较好的表现。但谷歌大模型的表现实在不尽人意。有网友表示,谷歌 BARD 常用我还在训练中来搪塞它的错误答案。

有了这样的排行榜,能够让我们对于不同模型之间的优劣有更加直观的判断。前几天,OpenAI 推出了 GPT-4Turbo,这不,立刻有网友提议将其也更新在排行榜中。

下次的排行榜会是怎样的,有没有大幅变动,我们拭目以待。

参考链接:

https://twitter.com/bindureddy/status/1724152343732859392

https://twitter.com/vectara/status/1721943596692070486


返回网站首页

本文评论
研究发现人在打盹时最具创造力:创造性比清醒受试者多78%
快科技5月27日消息,美国麻省理工学院(MIT)与美国哈佛医学院研究人员最近一项研究发现,人们在打盹”时最具创造力,尤其当被引导梦到特定主题时。具体来讲,一个人在游离于睡眠和清醒...
日期:05-27
50亿美元!中国互联网最牛4家公司集体抢英伟达A800显卡 黄仁勋赢麻_英伟达中国高管
快科技8月10日消息,中国互联网最牛的四大公司,都在出手向英伟达购买A800显卡,订单总额达到了50亿美元。iqoo8与iqoo neo5s哪个更值得入手据外媒报道称,百度、字节跳动、腾讯和阿...
日期:08-10
GPD WIN 3 游戏掌机开启预售:i5-1135G7+16GB 内存,4799 元_gpdwin3开箱
  2 月 26 日消息 根据 GPD 掌机官方的消息,全球首款玩主流 3A 游戏大作的滑盖直板掌机 GPD WIN 3 开启预售。   2020 年 12 月 GPD 宣布了全球首款 Windows 10 直板掌...
日期:07-16
阿里云https免费「阿里云免费试用产品增加至80多款 新增多个品类」
5月16日 消息:阿里云(aliyun.com)今日宣布,免费试用产品增加至80多款。包括了云原生、AI、安全、开发工具、迁移和运维管理等多个品类。美团2018年股价据悉,上月中旬,阿里云推出...
日期:05-16
德邦股份业绩「德邦股份第三季度营收80.15亿元 同比增长4.51%」
10月28日消息,德邦物流股份有限公司(以下简称德邦股份或公司)日前发布2022年第三季度报告(以下简称报告)。特斯拉芯片架构报告显示,德邦股份第三季度营收80.15亿元,同比增长4.51%...
日期:10-29
孤独经济空前高涨 泡泡玛特让年轻人不再孤独_泡泡玛特的经济
  从最新的数据统计来看,近几年来,“一人食”、“陪玩”、“铲屎官”等关键词搜索呈现着越来高的发展趋势,人们对“陪伴类”产品的需求如火如荼,由此也推动了孤独经济的在当...
日期:10-11
引入意大利知名品牌利雅路,苏宁采暖再添生力军
  11月28日,苏宁与意大利知名采暖品牌利雅路战略合作发布会在南京苏宁总部召开。双方约定,作为苏宁中央集成公司引进的唯一一个意大利壁挂炉品牌,利雅路将以独家直供的方式...
日期:06-16
外来生物美国珍珠鳖被放生太湖 无脑放生不是积德:律师回应违法
近日,一行人带着一只美国珍珠鳖,在太湖放生。由视频得知,此鳖长约40厘米宽约20厘米,市民放生后就开始欢呼。有网友指出,美国珍珠鳖是一种高度入侵性的物种,在太湖中没有天敌和竞争...
日期:06-20
苹果内部5G调制解调器将在2025年问世 可能与iPhone SE 4一起发布
苹果公司正在开发第四代iPhone SE系列产品,这款产品将进行重大的重新设计。这款手机的显示屏预计会更大,与iPhone 14类似,四个角落都有显示屏。此外,该公司还将取消Home键,转而提...
日期:09-08
日本人工智能指导方针草案提出 AI 使用方需共同承担责任_日本的人工智能技术战略的内容包括
10月7日消息:据日本共同社消息,为了确保生成式人工智能(AI)的妥善利用,日本政府正在制定面向企业等的指导方针。根据获悉的草案,不仅是 AI 开发商和服务提供商,也包括使用 AI 开展...
日期:10-07
马斯克:特斯拉累计生产电动车300万辆 上海厂突破100万辆(特斯拉上海超级工厂马斯克)
flickr手机版诺基亚920上市价格华为p8现在市场价多少钱微软游戏模式手机上亚马逊   讯 北京时间8月15日早间消息,据报道,特斯拉CEO埃隆·马斯克(Elon Musk)在Twitter上发文称,...
日期:08-16
Mate50E将上市 华为正加大供货:3999元起
对于华为来说,Mate 50系列将会扛起他们高端系列冲量的大任,而这就少不了Mate 50E,作为全系最便宜的机型,备货多少也是很关键。qq 浏览器6.2.0精简版电商股大涨华为官方已经宣布,M...
日期:10-18
剖析金融新基建,解决“触点、场景、底层平台”成关键趋势之一
  神策数据在《金融新基建系列报告——银行业六大中期趋势展望》中,列举并阐述了新基建背景下的银行业六大趋势。其中趋势三为:优化客户旅程并提升旅程管理能力,是银行胜出...
日期:07-16
除螨仪是否值得买?米家无线除螨仪用除螨黑科技告诉你答案!(米家除螨仪和无线除螨仪)
  尘螨是诱发哮喘、过敏性鼻炎和湿疹等过敏性疾病的重要过敏原,在居家环境中尘螨以人体或动物脱落的皮屑为食,在床铺上和卧室地毯中繁殖较快,这让除螨类家电产品受到了消费...
日期:07-14
苹果推出Apple Watch Ultra 2,续航可达36小时,799美元起「apple watch 续航怎么样」
财联社9月13日电,苹果宣布推出Apple Watch Ultra 2;苹果为Apple Watch Ultra 2推出了一款独家的新表盘,名为Modular Ultra;Ultra 2在单次充电后的典型使用情况下,电池续航时间可...
日期:09-13
奇瑞新能源车型有哪些「传统燃油车企发力!奇瑞发布首个独立新能源电动品牌iCAR」
在新能源汽车时代,传统燃油车也开始发力了。4月7日,奇瑞汽车在北京水立方举办的新能源之夜上,发布了发布了奇瑞在新能源布局方面的战略规划,未来奇瑞汽车各品牌将全面新能源化。...
日期:04-08
卫龙上市融资「卫龙明日上市:募资净额9亿港元 腾讯云锋红杉高瓴或浮亏」
雷递网 雷建平 12月14日卫龙食品(股票代码为:“09985”)将于明日在港交所上市,发行价为10.56港元,位于发行区间10.4到11.4港元的下端位置。卫龙食品此次募资净额为8.99亿港元;若行...
日期:12-14
联通研究院牵头的首项算力网络信令国际标准发布_算力互联网
通信世界网消息(CWW)2023年5月10日-19日,在国际电信联盟电信标准化部门(ITU-T)第11研究组(SG11)会议上,通过了由中国联通研究院牵头的算力网络服务部署信令要求(Q.4140)标准,该标准是首...
日期:07-29
供暖治愈微剧《消除吧!烦恼》1月27日开播,消除烦恼咖啡馆暖心营业中
  1月27日,国内首部游改微剧——腾讯游戏《天天爱消除》官方IP剧《消除吧!烦恼》将在腾讯微视独家开播。游戏中备受玩家喜爱的角色琦琦熊、黄豆豆、喵星星、果果兔暖萌亮...
日期:03-16
三星j708i_三星j708i图片
由于"三星J708i"在市场上已经很久了,很多人可能不太熟悉这款手机。"三星J708i"是一款基于CDMA2000网络的手机,由韩国三星电子公司设计生产。外观方面,"三星J708i"采用了翻盖式...
日期:06-03