您的位置:首页 > 互联网

腾讯 AI Lab联合多家学术机构发布大模型幻觉问题评估

发布时间:2023-09-14 15:56:26  来源:互联网     背景:

要点:

1、大模型幻觉主要分为与输入、上下文及事实冲突的三类,研究热点在第三类。

苹果 季报

2、相比传统模型,大模型幻觉评估面临数据规模大、通用性强、不易察觉等新难题。

3、缓解幻觉可从预训练、微调、强化学习、推理等方面入手,但仍有可靠评估等挑战。

iphone13pro max升级ios15.7还是16系统

新奥科技发展有限公司是哪个省市

9月14日 消息:近年来,大规模语言模型在许多下游任务上表现强劲,但也面临着一定的挑战。其中,大模型生成的与事实冲突的“幻觉”内容已成为研究热点。近期,腾讯 AI Lab 联合国内外多家学术机构发布了面向大模型幻觉工作的综述,对幻觉的评估、溯源、缓解等进行了全面的探讨。

  • 论文链接:https://arxiv.org/abs/2309.01219

  • Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey

研究者根据大模型幻觉与用户输入、模型生成内容及事实知识的冲突,将其分为三大类。目前研究主要集中在与事实知识冲突的幻觉上,因为这最易对用户产生误导。与传统语言生成任务中幻觉问题不同,大模型幻觉面临数据规模巨大、模型通用性强以及幻觉不易被察觉等新难题。

针对大模型幻觉的评估,已提出多种生成式和判别式的基准,以问答、对话等不同任务形式检验模型的幻觉倾向。这些基准各自设计了判定幻觉的指标,但可靠的自动评估仍有待探索。分析认为,海量低质训练数据以及模型对自身能力的高估是导致幻觉的重要原因。

小彼恩点读笔资源下载

为减少幻觉,可从预训练、微调、强化学习等多个阶段进行干预。预训练可关注语料质量;微调可人工检查数据;强化学习可惩罚过度自信的回复。此外推理阶段,也可通过解码策略优化、知识检索、不确定度测量等方式缓解幻觉。尽管取得一定进展,可靠评估、多语言场景、模型安全性等方面仍存在诸多挑战。总体来说,大模型幻觉的评估与缓解仍有待深入研究,以促进大模型的实际应用。


返回网站首页

本文评论
驾校练考场收费合理吗「驾校考场旁设收费厕所:不交钱就挂科」
5月25日消息,山东烟台一科目三考场附近厕所贴收款码,上面写明自觉支付1元者一顺百顺,考试一把过;不自觉支付者事事不顺,考试把把掉。驾校教练称,是附近居民私建的,会在厕所旁管理收...
日期:05-26
ai画画工具「ai绘画生成器哪个好用?12个优秀AI艺术生成器推荐(附网址)」
人工智能 (AI) 不仅影响商业和医疗保健等行业,还在创意产业中发挥着越来越重要的作用。人工智能技术和工具通常可供任何人广泛使用,这有助于创造全新一代的艺术家。我们经常听说...
日期:04-11
当时特斯拉ceo马斯克曾乐观预计这款车的周产能将在「外媒预测特斯拉总体规划会:马斯克画饼太多,期望不宜过高」
3月1日消息,美国电动汽车制造商特斯拉将于当地时间3月1日在位于美国得克萨斯州奥斯汀的超级工厂举行投资者日活动,预计公司首席执行官埃隆·马斯克(Elon Musk)将在会上公布他对...
日期:03-01
新型进网许可标志启用 你买的手机是正品吗?最新查询方法来了「进网许可标签有什么用」
快科技7月4日消息,7月1日起,我国正式启用新型进网许可标志,手机等电信设备用了多年的进网标迎来改变。据工信微报公众号介绍,启用新型进网许可标志可以进一步提高进网许可标志管...
日期:07-04
iPhone 14 Plus在周五上市前首次出现预计交货日期延迟的情况「苹果13交货日期会比预计提前吗」
苹果公司的iPhone 14 Plus,其最新的6.7英寸非Pro版iPhone将于本周五(10月7日)正式发布,苹果公司网站目前显示所有型号和配置的发货延迟到下周。苹果公司的美国订单页面现在给出...
日期:10-04
北漂逃回老家县城的同学,比我更敢花钱_北漂失败回家的人
声明:本文来自于微信公众号 五环外(ID:wuhuanoutside),作者:镜子,授权转载发布。县城消费大翻身今年春节期间,#被家乡县城的发展震惊#这一话题在社交媒体引发热议,县城商业面貌的...
日期:02-09
第31届中国国际信息通信展览会圆满闭幕
通信世界网消息(CWW)2023年6月6日,由工业和信息化部主办、通用技术邮电器材承办,为期3天的“第31届中国国际信息通信展览会”(PT EXPO CHINA,以下简称PT展)在北京国家会议中心落下...
日期:06-07
请全体员工打新冠疫苗的通知_苹果要求门店及办公室员工必须注射新冠疫苗 四周内注射加强针
  北京时间1月16日上午消息 据媒体报道,苹果公司要求其在门店和公司办公室工作的员工注射新冠肺炎疫苗。   这项新规定要求有资格获得加强针的员工在符合资格后的四周内...
日期:07-17
产业版GPT开新路,中国大模型弯道超车的机会来了!
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。GPT系列大模型诞生后,人工智能对话聊天系统就像平地起春雷,在全球爆火。与之同时,国内互联网大厂纷纷「...
日期:05-10
理想汽车CEO透露曾决定砍L7车系「理想汽车 总裁」
近日,理想汽车CEO李想在个人微博上透露,理想L7单一车系的日销量首次突破1000辆,他将此称为“历史性时刻”。然而,李想坦承去年9月曾坚定地决定要取消L7车系,但最终在多位资深管理...
日期:06-22
外卖平台需要注册哪类商标「抖音称外卖服务仍在试点 相关商标已注册完成」
凤凰网科技讯 2月7日消息 天眼查App显示,北京字跳网络技术有限公司已成功注册多枚“抖音心动外卖”商标,国际分类包括教育娱乐、通讯服务、社会服务等,以上商标均申请于2021年7...
日期:02-08
量子计算上市公司「中国第一量子计算公司 已经用量子来玩股票基金了」
近日,本源量子联合新华指数团队合作开发出量子启发式算法,该算法可以在经典计算机上运行,能够有效降低投资成本,加快决策效率,提升投资收益。官方介绍称,量子启发式算法是一种利用...
日期:10-31
流浪地球2票房多少亿「大年初一上映!《流浪地球2》猫眼想看破60万:直追《阿凡达2》」
最近两场科幻巨作非常引人关注,一款是卡梅隆十年打造的《阿凡达2》,一款是刘慈欣小说改编的国产科幻龙头《流浪地球2》。目前,《阿凡达2》已经上映十天,国内票房刚破7亿元,最近口...
日期:12-26
涨钱了!4省份上调最低工资标准 福建、四川等15地区最低2000元以上_福建省最低收入
自2023年以来,河北、安徽、贵州、青海等省份纷纷上调了最低工资标准。河北从1月1日开始施行新的月最低工资标准,三档分别为2200元、2000元、1800元,其中对应小时最低工资标准分...
日期:02-10
百度网盘不限速手机版2020_百度网盘青春版将公测,不限速
  12 月 20 日消息,百度此前宣布,百度网盘青春版(不限速)即将开始内测,前 1000 名额提供给安卓 iOS 平台内测,但后续消息称将在 12 月 20 日直接发布公测包。   据百度方面...
日期:07-17
阿里巴巴岂能与四十大盗同流合污(阿里巴巴与四十大盗道理)
  据媒体报道,阿里巴巴集团旗下B2B公司——阿里巴巴(中国)网络技术有限公司昨天宣布,公司CEO卫哲及COO李旭晖因2010年有1107名客户存在欺诈行为而引咎辞职。   假如把公司...
日期:07-26
腾讯地图将于11月11日停止服务「腾讯地图将于11月11日停止服务什么意思」
中关村在线消息:今日,腾讯地图官方宣布PC端将于11月11日停止服务,用户可以下载腾讯地图手机APP版继续使用。美国的无人驾驶汽车海信电视60e3f和小米4a60寸iPhone13现价iqoo z6...
日期:10-19
据亚马逊财报,2017年,AWS业务在总利润中的占「亚马逊第三季度营收1271亿美元 AWS云服务净销售额205.38亿美元」
10月28日消息:亚马逊公司今天发布了2022财年第三季度财报。报告显示,亚马逊第三季度净销售额为1271.01亿美元,与去年同期的1108.12亿美元相比增长15%,不计入汇率变动的影响为同...
日期:11-01
谁是狼人进行赌博专项治理,搭建全面大数据风控体系
  互联网陌生人社交市场时下如火如荼,新成员不断加入,玩家也是花样百出,国内第一款狼人杀产品谁是狼人,现今用户数已直逼一亿,成为互联网异军突起的重要产品。不难发现也不可...
日期:12-04
华为鸿蒙OS 3 Beta版最新升级名单:MatePad、nova 9 SE在列_华为公布鸿蒙OS升级表
今年7月,华为HarmonyOS 3正式发布,目前已启动规模升级,华为表示,鸿蒙百天破亿,是史上发展最快得操作系统。华为官方日前公布了新一批HarmonyOS 3 Beta版尝鲜机型名单,新增7款机型...
日期:10-11