您的位置:首页 > 互联网

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

发布时间:2023-12-03 11:23:05  来源:互联网     背景:

声明:本文来自于微信公众号 三易生活(ID:IT-3eLife),作者:三易菌,授权转载发布。

“不服跑个分”这句话,相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件,由于能够在一定程度上反映手机的性能,因此备受玩家的关注。同理在PC处理器、显卡上,同样也有相应的跑分软件来衡量它们的性能。

既然“万物皆可跑分”,当下最热的AI大模型也开始玩起了跑分,特别是在“百模大战”打响后,更几乎是天天都有突破、各家的都宣称自己是“跑分第一”。

然而国产AI大模型虽然在跑分上几乎没有输过,可体验方面却从未赢过GPT-4。那么问题就来了,大促节点时各手机厂商总能拿到“销量第一”,靠的是不断增加定语,将市场细分再细分来让人人都有第一拿,可AI大模型领域就不太一样了,毕竟它们的评估基准基本是统一的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估应对人类级任务的能力)。

比亚迪致力于

owc推出雷电4集线器新品

目前被国内厂商经常引用的大模型评测榜单是SuperCLUE、CMMLU和C-Eval,其中CMMLU和C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出,至于SuperCLUE,则是一帮各大高校的AI专业人士攥出来的。

以C-Eval为例,在9月初的榜单上,云天励飞大模型 " 云天书 " 排在第一、360排第八,GPT-4却只能排在第十名。既然标准是可量化的,为什么会出现反直觉的结果呢?大模型跑分榜单之所以会呈现出“群魔乱舞”的景象,其实是目前评价AI大模型性能的方法有局限性,它们是用“做题”的方式来衡量大模型的能力。

众所周知,智能手机的SoC、电脑的CPU和显卡为了保护自身寿命,会在高温的情况下自动降频,反之低温则会使得芯片性能得到更好的发挥。因此将手机放进冰箱、或是为电脑配备更强悍的散热来跑分,通常就会得到一个比正常状态下更高的成绩。更别提针对各类跑分软件进行“专属优化”,也早就成为了各大手机厂商的标准操作。

同理,AI大模型的跑分既然是以做题为核心,自然就会有题库。没错,国内部分大模型在“刷榜”上一个赛一个的原因,就出现在了这里。由于种种原因,目前各大大模型榜单的题库几乎对厂商是单向透明,也就是出现了所谓的“基准泄露”。例如C-Eval榜单在上线之初就有13948道题目,并且由于题库有限,就出现过直接让某些不知名大模型用刷题的方式“通关”的情况。

大家不妨设想一下,如果在考试前机缘巧合看到了试卷和标准答案,突击背题的结果就是考试成绩会大幅度提高。所以将大模型榜单预设的题库加入训练集,这样一来大模型也就变成了拟合基准数据的模型,而且目前的LLM本身就以出色的记忆力著称,背标准答案简直就是小菜一碟。

通过这一方式,小尺寸模型在跑分中也能拥有比大尺寸模型更好的结果,部分大模型取得的高分就是在这样的“微调”下实现。人大高瓴团队在论文《Don't Make Your LLM an Evaluation Benchmark Cheater》中,就直白地指明了此类现象,而且这种投机取巧的做法对于大模型的性能反而是有害的。

高瓴团队的研究人员发现,基准泄漏会导致大模型跑出夸张的成绩,例如1.3B的模型可以在某些任务上超越10倍体量的模型,但副作用就是这些专门为“应试”设计的大模型,在其他正常测试任务上的表现会受到不利影响。毕竟想想也能知道,AI大模型本来应该是“做题家”、却变成了“背题家”,为了获得某榜单的高分,去使用该榜单特定的知识和输出样式,肯定就会误导大模型。

训练集、验证集、测试集的不交叉显然只是理想状态,毕竟现实很骨感,数据泄露问题从根源上就几乎不可避免。随着相关技术的不断进步,当下大模型的基石Transformer结构的记忆和接收能力在不断提升,今年夏季微软研究院General AI的策略就已经实现了让模型接收1亿Tokens、而不会产生无法接受的遗忘。换而言之,未来AI大模型很有可能具有读取整个互联网的能力。

即使抛开技术进步,单纯以当下的技术水平,数据污染其实也难以规避,因为优质数据总归是稀缺、且产能有限的。AI研究团队Epoch在今年年初发表的论文就表明,AI不出5年就会把人类所有的高质量语料用光,而且这一结果是其将人类语言数据增长率,即全体人类未来5年内出版的书籍、撰稿的论文、编写的代码都考虑在内,所预测的结果。

守望先锋限时皮肤重新购买

一个优质的数据集如果适合作为评测用途,那么它肯定就同样在预训练上有更好的发挥,例如OpenAI的GPT-4就使用了权威推理评测集GSM8K的数据。所以这就目前大模型评测领域的尴尬之处,大模型对于数据的无止境需求导致了相关评测机构必须比AI大模型厂商跑得更快、更远,可如今评测机构却根本就没能力做到这一点。

至于说为什么某些厂商会在大模型跑分上格外上心,纷纷去操作刷榜呢?其实这一行为背后的逻辑,就与App开发者给自家App的用户量注水一模一样。毕竟App的用户规模是衡量其价值的关键要素,而在当下这个AI大模型的起步阶段,评测榜单的成绩几乎就是唯一一个相对客观的评判标尺,毕竟在大众的认知里跑分高就等于性能强。

当刷榜可能带来强烈的宣传效应,甚至可能会为融资打下基础的情况下,商业利益的加入就必然会驱使AI大模型厂商争先恐后去刷榜了。


返回网站首页

本文评论
世界上有精灵王国「全球多地出现神秘“精灵圈”怪像」
据英国《都市报》9月26日报道,在非洲南部的纳米比亚和澳大利亚的沙漠中,神秘的“精灵圈”(指在地面上出现的圆圈)不断出现。近日,专门负责研究这种被称为“精灵圈”怪象的科学家...
日期:09-27
PS5主机惨遭一键破解:自由安装三方程序_ps5主机破解版
才上市两年的PS5主机,就这么破解了?ID显示为jose Gonzalez”分享了PS5主机破解的最新进展,从截图来看,只需点击主界面的Auto HEN”通知消息就能启用自制程序。自制固件的意义在...
日期:10-16
360网络安全团队_360人人网强强联手开创互联网安全公司与SNS合作新模式
  近日,中国最大的实名制SNS人人网与国内最大的安全公司360强强联手,推出人人网专版360安全浏览器与人人桌面360安全版,致力于打造最安全的SNS社交网站。业内人士指出,这也标...
日期:07-25
男子冒充清华研究生成网红 称一开始只想做个“代购”「冒充博士犯法吗」
近日,北京市一无业男子张某被判有期徒刑三年,并处罚金50万元。张某此前在短视频平台上谎称自己是清华大学研究生,并冒用假学生证混进校园拍摄发布视频,赚取了上百万的粉丝,成为小...
日期:04-17
智能手机系统将现新面孔 Android遭嫌弃_android 全面屏手机适配
  上月底,分别由三星和英特尔支持的两个Linux软件团体——LiMo基金会和Linux基金会表示,正在设计一个新的移动操作系统,它将由两家旗下的“LiMo”和“MeeGo”整合而来。新系...
日期:07-23
华为P50全系立减600 到手3758元「华为p50会不会降价」
在这个周末,华为正式调整了旗下华为P50手机的价格,全系立减600元,华为P50售价3888元起(8GB+128GB)、华为P50 Pro售价4988元起(8GB+128GB)。除了全系配备66W超级快充外,P50 Pro版本还...
日期:12-18
苹果总裁_苹果公司现在的董事长
苹果公司当前的总裁是蒂姆·库克(Tim Cook),他自2011年接替史蒂夫·乔布斯(Steve Jobs)成为苹果公司首席执行官(CEO)以来,继续领导苹果公司在科技领域的创新发展,并获得了极大的商业...
日期:05-29
百度发布文心大模型4.0!李彦宏:大模型带来的智能涌现,是开发AI原生应用的基础
通信世界网消息(CWW)“大模型带来的智能涌现,这是我们开发AI原生应用的基础。”10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,...
日期:10-18
韩国国外域名网站_韩国40个主要网站遭黑客攻击 涉多家门户网站
  4号,韩国40个主要网站遭到黑客攻击,涉及韩国总统府、外交通商部、国家情报院等政府部门,国民银行等金融机构,以及多家门户网站。韩国警方当天晚些时候表示,这次的事件可能是...
日期:07-26
OpenAI 正准备向公众发布新的开源 AI 模型
5月16日消息:OpenAI 正准备向公众发布一种新的开源语言模型,The Information 周一的报道援引一位了解该计划的人士的话说。美团的招聘岗位此举是在 ChatGPT 的开源替代品倍增...
日期:05-16
百度智能云六大智能产品基于文心一言升级 将在安全评估后上线「百度智能云可信吗」
4月26日消息:据 36Kr 消息,百度智能云日前举行闭门技术交流会,表示百度智能云大模型平台正在内测,除了提供包括文心一言的文心大模型以外,还支持第三方大模型,并提供 AI 应用的工...
日期:04-26
小米笔记本 Pro X 高端旗舰先导片公布:搭载 RTX 3050Ti 独显,本月发布_小米笔记本首发3050ti
  6 月 28 日消息 小米上月中旬宣布高端旗舰小米笔记本 Pro X 将于 6 月发布,之后就很少再有该笔记本的官方消息,不过今天官方放出了该笔记本电脑的先导片,一起来看一下。...
日期:11-22
我国软件业完成软件业务收入73142_工信部:我国软件从业人数规模不断扩大,工资总额增长放缓
  10 月 22 日消息,据工信微报官方公众号,工信部今日公布了 2021 年前三季度软件业经济运行情况,前三季度,我国软件和信息技术服务业(下称“软件业”)总体呈良好发展态势,业务...
日期:10-23
江苏:明年底率先全面实现垃圾强制分类(江苏垃圾分类政策)
  12月16日消息 中国政府网信息显示,江苏将于明年底率先全面实现垃圾强制分类。临近年底,江苏县级以上党政机关、省属医疗机构和省属高校将如期完成生活垃圾强制分类目标;...
日期:08-10
第三方网站披露!《黑神话:悟空》国区售价现身_《黑神话:悟空》多少钱
快科技8月21日消息,近日,《黑神话:悟空》进行了首次线下测试,展示出了不弱于海外一线游戏的技术实力。这也使得该作发售后的价格,成为了不少玩家社区讨论的焦点。目前,有玩家发现,...
日期:08-21
复旦毕业生简历衣着引发争议!校方回应:非我校毕业生 系不实信息
6月26日消息,一份复旦大学女毕业生的求职简历流传网络,其附带照片衣着引发争议。该女子在简历中称思想端正、勤奋学习,有崇高的理想和伟大的目标。曾在上海两家企业实习,求职意...
日期:06-26
Adobe 公司股价「200亿美元!Adobe砸钱吞并最大竞争对手Figma,盘中股价大跌逾17%」
当地时间周四(9月15日)Adobe宣布,它将以约200亿美元的现金和股票收购设计软件公司Figma。收购交易完成后,Figma将继续独立运营,Figma的定价暂时不会改变。Adobe称,它将和Figma共同...
日期:09-22
京东健康:回购22.03万股,共耗资约1015.4万港元_京东健康股价 香港
  财联社9月26日电,京东健康(06618.HK)在港交所发布公告,当日回购22.03万股,回购价格为45.4-46.95港元,共耗资约1015.4万港元。安卓13支持机型华为智能交通系统新专利美国有多...
日期:09-27
iPhone 15最强对手!华为Mate 60屏幕曝光:鸿蒙版“灵动岛”加持
快科技7月19日消息,博主旺仔百事通暗示,华为Mate60系列将会采用灵动岛设计,其预装的HarmonyOS4.0系统会针对灵动岛进行UI适配和优化,实现更多玩法。之前华为曾做过调研,在调研中,...
日期:07-19
抖音电商双11预售战报出炉:商品曝光同比增长2000%_抖音电商报告
10月31日 消息:昨日晚间,抖音电商公布了首份双11预售战报。从10月24日预售开启,抖音双11好物节正式拉开序幕。抖音电商预售战报数据显示,截至10月27日24点,预售商品曝光量较去年...
日期:11-02