您的位置:首页 > 互联网

谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻_模型测评网站

发布时间:2023-11-09 18:19:26  来源:互联网     背景:

11月9日 消息:最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。

研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实际应用中可能产生潜在的危害。

论文地址:https://arxiv.org/pdf/2311.01964.pdf

在多项模拟测试中,研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时,其在该基准中表现更好。然而,在其他常识和数学基准中,模型的表现下降。甚至在没有泄露数据的任务中,模型的表现也受到影响并下降。

研究团队分析了这种训练数据泄露情况可能性,指出大型模型的预训练语料和基准测试数据都采用公开文本,导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升,而大型模型的预训练语料被视为核心机密,外界无法评估,造成模型意外“投毒”。

库克谈苹果未来

为规避这一问题,研究团队提出了一些建议。首先,建议大型模型应采用多个基准测试,尽管在实际情况中完全避免数据重叠很难。其次,对基准测试维护人员,应提供基准测试数据来源,分析数据被污染的风险。然而,研究团队也承认本次研究存在一定局限,未对不同程度的数据泄露进行系统性测试。

模型评判标准

小鹏噱头

华为mate10双摄

该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示,并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成,其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长,而韩家炜教授是伊利诺伊大学香槟分校计算机系教授,同时也是美国计算机协会院士和IEEE院士。

特斯拉掉进河里

这一研究呼吁关注大型模型的基准评估问题,强调在评估过程中需要更多的透明度和多样性。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。

模型测算


返回网站首页

本文评论
官宣:vivo成为杭州亚运会官方手机「杭州亚运会合作运营商」
6月15日消息,正值杭州亚运会开幕倒计时100天,杭州2022年第19届亚运会官方手机独家供应商签约仪式在杭州亚运组委会举行,vivo正式签约成为杭州亚运会官方手机独家供应商。杭州亚...
日期:06-15
迎宾+送餐,擎朗机器人入驻数家江城知名餐厅(擎朗送餐机器人怎么样)
  要说最近哪家机器人比较火爆?擎朗机器人真的是走到哪火到哪。日本、韩国、美国、西班牙等海外市场持续狂热,短短1年间完成过2亿元B系列融资及数亿元C轮融资。近日,擎朗机...
日期:07-10
抖音推出视频社交app多闪  红包视频增进亲密关系(多闪,好友小视频社交App)
  1月15日,抖音正式宣布升级私信功能,推出自己的独立视频社交产品多闪,正式进军社交领域。   当天,25岁的多闪产品负责人徐璐冉,详细介绍了这款定位于增进亲密关系的视...
日期:10-07
15 Pro Max成绩提升11% 安兔兔跑分曝光_iPhone
来源:中关村在线感谢信怎么写近日,苹果iPhone 15系列手机正式开启预售,而在正式发售之前,安兔兔曝光了iPhone 15 Pro Max的跑分数据。据安兔兔官方发布的数据,iPhone 15 Pro Max...
日期:09-20
emoji文字生成「超赞!Emoji AI可为任何文本生成酷炫emoji表情」
9月13日 消息:在自媒体内容和营销文案中使用emoji符号是一种增加趣味性和吸引力的方式,但有时我们可能会纠结于选择哪个emoji才最适合。不过别担心,这个网站可以解决你的困扰!...
日期:09-13
13代酷睿i9+32GB内存 专业大屏高性能轻薄本华为MateBook16s2023发布_matebook13的酷睿10代版本
2023 年 5 月 18 日,华为举办夏季全场景新品发布会,全新一代华为MateBook 16s2023 正式亮相。这是一款 16 英寸专业高性能大屏轻薄本,主要面向对屏幕、性能以及智慧能力等方面...
日期:05-19
49.5元 小米无线耳机半价了「小米无线耳机值得买吗」
本周,小米耳机和配件也开始了促销,现在小米Air 2 SE半入耳式无线耳机原价99元,现在只要49.5元了,相当于半价抢购,这款耳机采用TWS真无线设计,并且支持小米手机开盒弹窗。分体式真...
日期:11-15
小桔能源CTO廖兰新:四年来,300多家桩企加入小桔合作生态
9月7日消息,小桔能源CTO廖兰新近日宣布小桔充电将进一步开放充电桩供应链生态,启动“独角兽计划”。盒马x会员店什么时候开业“2019年4月,为提供更好的充电服务,小桔充电开启了...
日期:09-07
腾讯电商迎井喷爆发 拍拍网单日销量破亿_腾讯拍拍网的营销模式有哪些?
  记者从腾讯方面获知,10月24日启动的号称腾讯电商史上最大力度的促销活动——“拍拍疯抢节”销售异常火爆,截止24日下午17时32分,活动带动拍拍网的销售额已经突破了1亿元,这...
日期:07-24
刚刚!阿里员工被百度服务器实力震惊
  大年三十夜,正抢红包时。如今边看春晚边抢红包已经成为许多中国家庭团圆时刻的保留节目。无论是之前的微信、淘宝,还是今年的百度,都在用一年比一年大的红包俘获着用户的...
日期:10-22
新华三前三季度营收375.70亿元,运营商业务同比增长20.94%_新华三2020年营业额
通信世界网消息(CWW)昨日,紫光股份发布2023年第三季度财报,1-9月公司营业收入达到552.15亿元,实现稳健增长。值得注意的是,紫光股份控股子公司新华三实现营业收入375.70亿元。其中...
日期:10-30
观潮论坛:中外专家汇聚BCS共商数字世界竞合之路
  数字技术缔造了数字世界,让全球连接更加紧密,但也带来空前激烈的全球科技竞争,数字世界已成大国博弈的主领域。面对技术垄断、国家数据主权、关键基础设施安全、勒索攻击...
日期:07-17
Apple Music迎来史诗升级!新增至1亿首歌「apple music音质提升」
中关村在线消息:10月12日,据相关爆料,Apple Music最近上线了全新功能,歌手和乐队现在可以个性化定制AppleMusic个人主页,可以再个人简介中按照自己的喜好添加出生日期或者成立年...
日期:10-12
调查:56%阿联酋学生相信AI将彻底改变教育_阿联酋教育水平怎样
划重点:当贝投影系统更新华为mate30戴口罩人脸识别英特尔发布的最新处理器...
日期:11-03
户外电源赛道按下“加速键”,电小二领跑全球
  “以前觉得钓鱼无聊,现在真香了,每天凌晨在抖音看钓鱼视频入迷”。 刚发布的《2021上半年抖音体育数据报告》显示,抖音最受欢迎的休闲运动是钓鱼,而抖音上最火的钓王“天元...
日期:07-17
软银计划在拉美投资10亿美元,锁定650家初创企业_软银中国创业投资公司
  北京时间2月17日上午消息,据国外媒体报道,今年软银集团将继续在拉丁美洲进行投资,其主要目标将包括来自电子商务、医疗健康和金融科技等行业的初创企业。   2019年第一...
日期:12-11
“智慧科技 创领未来”:TCL光伏科技一站式智慧能源解决方案预告
(原标题:“智慧科技 创领未来”:TCL光伏科技一站式智慧能源解决方案预告) 2023年柏林消费电子产品及家用电器展览会(简称IFA)将于...
日期:08-30
香港恒生指数开盘涨0.33% 网易、京东集团涨超2%(港股开盘:恒生指数涨1.3%)
查看最新行情   讯 8月16日上午消息,香港恒生指数开盘涨0.33%,恒生科技指数涨0.72%。网易、京东集团涨超2%。美团涨超1%。 聚美优品和乐蜂网的口水战为...
日期:08-20
越亮越“勇” 智能商务投影机是如何征服白天与低效率的?
  事物是很难做到两全其美的,商务投影机可能有不错的亮度,白天不拉窗帘也能看清,但智能化、易用性有所缺失,智能家用投影机支持手机无线投屏,但白天拉开窗帘后什么都看不到。...
日期:05-13
美股周五:三大股指连跌三周,英伟达再跌逾2%,拼多多5天涨25%「美股三大股指大跌 新闻」
美国时间周五,美股收盘主要股指全线下跌,三大股指本周均下跌3%以上,且连续第三周下跌。此前美国公布了8月非农就业数据,并未改变美联储将在9月底大幅加息的预期。道琼斯指数收于...
日期:10-03