您的位置:首页 > 互联网

GPT-4满分通过MIT本科数学考试,却遭同门质疑“作弊”,数据集本身就有问题

发布时间:2023-06-19 15:26:51  来源:互联网     背景:

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:Caleb,授权转载发布。

这两天,相信大家都被GPT-4满分轻松拿下MIT本科数学考试的事儿给刷屏了。

给先不知情的小伙伴们说一下,这次的测试是MIT、波士顿大学和康奈尔大学的研究团队共同根据MIT所有获得学位所需的数学、电气工程和计算机科学 (EECS) 课程整理出来了4550个问题。

参与测试的AI模型有GPT-3.5、GPT-4、StableVicuna-13B、LLaMA-30B和LLaMA-60B。结果嘛,可想而知,GPT-4满分通过,但GPT-3.5却只做对了三分之一。

极米h3s看电视

论文链接:

https://huggingface.co/papers/2306.08997

这样的结果自然也是吸引到了众多网友的讨论,在网友们的一众惊呼声中,三位同样来自MIT的学生却发现了其中端倪。

揭开“网骗”GPT-4的面纱

在6月16日发现这篇论文后,三人决定深入挖掘一下。但是一小时内,他们对论文的方法论产生了怀疑,不到两个小时,他们意识到,数据集本身是有问题的。

论文中写到,研究人员“在没有图像和有解决方案的问题中随机选择了288个问题的测试集”。这个数据集(不包括用于微调开源LLM的训练集)也随着论文的发布被开源到了GitHub上,以及用于生成报告的测试性能代码。

然而,Drori教授却删除了这个项目。

他们目前针对此发布了该测试集的注释副本:

https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit#gid=1598949010

三人也表示,他们确信这个文件代表了论文中分析的测试集,因为评估代码中所有数据的文件路径都指向它,没有提供任何修改其内容的代码,而且在最初发布的GitHub仓库中也是可用的。此外,该文件也满足论文中规定的所有模式要求。

这些证据似乎非常有力地支持了一个主张,那就是,这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话,证明的责任在于作者公开发布这个数据和用它做的所有分析。

于是,他们开始检查各个数据点。

ios14.6 电量百分比

很快就发现,数据集中至少有10个问题是无法用提供的信息解决的,也就是说,根本不可能出现满分的情况。除此之外,还有几个问题在这个给出的背景下根本就不是有效的问题,这样的题目至少占了4%。

除了问题本身存在争议外,他们还发现,在所检查的288个问题中,有14个是重复的,在这些情况下,问题串之间的唯一区别是极小的字符级噪音,或者完全相同。

鉴于此,GPT-4能够获得满分不得不令人怀疑。得出这样的结果要么是在某个阶段将解决方案泄露到了提示中,要么是问题没有被正确评分。

这也促使他们进一步调查。最终发现,其实两边都占了。

它在演示一种更高级的“作弊”

在这里,还需要简单解释一下论文中提到的的“小样本示例”(few-shot examples)。简而言之,研究人员对OpenAI嵌入的数据集内的类似问题进行余弦相似度搜索,并将这些问题和解决方案作为额外的背景纳入模型的提示,以帮助模型解决问题。这本身没什么问题,只要给出的例子和问题存在足够大的差异,以便不暴露不公平信息。

但是在随机扫描已发布的测试数据集时,他们注意到一些奇怪的事情。许多提供给模型的小样本示例几乎与问题本身一字不差,这种重叠情况可以用柱状图来表示:

也就是说,模型得到的是问题的答案或与问题非常相似的问题。通常情况下,这来自于很多有类似背景的问题被反复提问。

苹果14出来后预计13会便宜多少

在他们看来,为了正确评估GPT的解题能力,“多部分问题”(multi-part questions)的其他部分应该被完全排除在某一问题的小样本示例外。事实上,他们还发现,这些多部分问题的解决方案往往直接提到或给出模型被要求解决的另一部分问题的解决方案。

而在评分上,根据开源的打分机制中,他们也发现了一些问题。

比如流程是如何处理分级的。事实上,研究人员是利用GPT-4来打分的,包括原始问题、解决方案,和GPT自己的答案,作为分级提示的参数。

在其他技术领域,GPT更有可能出现隐性误解,这种自动评分也就更有可能出现自我安慰的结果。

此外,虽然prompt级联是最近许多GPT论文中常见的技术,但这里有大量数据泄漏的可能性。每一级不仅提供基于基础事实的二元信息,而且还在prompt,直到达到正确答案。

虽然这些创建的prompt没有看到实际的解决方案,但重新prompt正确答案直到达到正确答案的二进制反馈是足够的,尤其是在占测试集16%的多选题中,无限的尝试保证了正确的答案。

这就好比有人拿着答题纸告诉学生他们是否得到了正确的答案,直到他们得到答案。

在戳破这层假象后,他们在数据集上完成了零样本GPT-4的运行,对数据的前30%进行了手动评分,结果与原论文可以说是“天壤之别”。

语言模型还不能被当作产生基础真理的神谕

最后,三人表示,他们目前提出的问题只是几个小时的审查中发现的最明显的问题,后期随着更多人更仔细的检查,会发现更多的漏洞。

他们也鼓励读者下载数据集,自己检查,毕竟只有通过了同行评估,才能得到最终肯定。

同时,他们也写到,他们对数据分析方法的完整性的观察是令人担忧的。这篇论文道出了最近人工智能研究的一个更大趋势:随着该领域的进展越来越快,研究时间线似乎在缩短,这其中就不可避免地存在走捷径的行为。

一个特别令人担忧的趋势是使用像GPT-4这样基于语言的模型来评估一个模型的准确性的技术。虽然它是一个有用的工具,但结论绝不应该被夸大,也不应该被当作地面真理。

最近有论文就写到,如果没有准确的真实信息,GPT-4的验证并不可靠。至少,应该选择一个随机的数据集子集,将GPT-4的性能与人类的对应物进行比较。语言模型还不能被当作产生基础真理的神谕。

此外,在使用数据之前,无论是用于训练、推理、基准测试还是其他方面,重新评估每一个数据点并进行基本的理智检查是极其重要的。鉴于有关数据集的规模较小,简单的人工验证很容易在工作范围内完成。

有网友在推特上打趣地说到,“这是LLM和作者推荐必吃的甜点,如果你赶时间,让GPT-4预测以下哪种味道最好”。

看来,关于GPT的相关研究和衍生风波,都还会持续再刮一阵子。

相关报道:

https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864#c49f4b29e01745de9bf1ffdf2170b067

百度一下外卖


返回网站首页

本文评论
脉脉:算法⼯程师月薪6.7万 领跑新能源汽⻋业薪资
4月4日消息,近日,脉脉高聘发布《2023新能源汽车中高端人才趋势洞察》(以下简称《洞察》)显示,新能源汽车产业人才招聘需求三年持续增长,超过1/3的新能源汽车产业人才在2023年实现...
日期:04-04
直播之全宇宙探险「探路元宇宙,直播平台的挑战与选择」
声明:本文来自于微信公众号 吴怼怼(ID:esnql520),作者:咸鱼鱼,授权转载发布。自2021年以来,元宇宙的潮流,在各行各业肆意流淌。金融、社交、游戏、教育,所有你能想象的行业,大多都能...
日期:09-16
作业帮“新匠师”韩世平,用心打磨课堂氛围让学习更有趣(作业帮直播课韩世平老师)
  “老韩,你现在出门打酱油有没有走快一点?”一名初中生在韩世平的教师主页下留言。这是韩世平曾经带过的学生,3年过去了,这名小同学已经升入初中,但他仍念念不忘老韩在课堂...
日期:07-16
苹果 iPhone 15 Pro Max 再次被传将独家配备潜望镜镜头:最高 6 倍光学变焦
5月9日消息:根据 Twitter 账户 @URedditor 的消息,广为流传的谣言得到了证实,iPhone 15 Pro Max 将独家配备升级版带有潜望镜技术的长焦镜头。这位爆料者今天在一条推文中表示...
日期:05-09
北京市“互联网+文化”领域营收超万亿_北京互联网行业收入
“互联网+文化”领域营收超万亿 美国fcc机构规定美国fcc将rtx3090 gpu日本电脑nec首届中国(深圳)跨境电商展览会开幕头条邱医生说是真的吗 ;   7月26日,2022北京文化论坛“...
日期:07-31
联想mp3「联想mp3怎么用手机下载音乐」
联想旗下的MP3产品系列是不少年轻用户所钟爱的音频播放器之一。它拥有着多款型号,如K啰K1等,根据不同的使用需求和偏好来定制。下面我们就来详细了解一下。联想MP3产品首要追...
日期:05-30
iPhone18 Pro将实现真全面屏,iPhone 屏幕技术路线图曝光_Iphone 12 pro屏幕
2023 年 1 月 23 日,近日有消息表示 iPhone 15 全系将搭载灵动岛,其实根据 DSCC Ross Young 在去年 5 月给出的 iPhone 屏幕技术路线图,算比较准确预测了 iPhone 屏幕形态的发...
日期:01-12
极光大数据:漂泊在他乡的人,谁手机里还没有几个找房APP?
  极光大数据(AuroraMobile,NASDAQ:JG)发布《2019年房产信息服务行业研究报告》,从房产信息服务行业整体情况、主要平台app运营情况、用户行为和态度、用户画像等角度全...
日期:08-15
小米手机fsn码「小米手机f码怎么获得」
小米手机在市场上一直备受追捧,但是它的知名度不仅仅是因为它的好机型,也因为它的f码抢购系统。小米手机f码是什么?怎么获得?下面我们来详细了解一下。58姚劲波新闻何为小米手机...
日期:06-03
山姆回应卖399元山寨迪奥产品:涉事商品已下架「山姆超市买到假货」
9月30日 消息:近日,山姆会员商店上架的一款标注为“Dior”联名的儿童玩具被曝出是山寨产品。这款售价399元的玩具上标注着“Dior珠宝设计师”“Dior授权 山姆限定首发”的字...
日期:09-30
PICO 4 VR一体机新品正式发布,售价2499元起「pico neo vr一体机测评」
9月27日消息,PICO在中国市场正式发布新一代VR一体机——PICO4系列,售价2499元起。这是PICO被字节跳动收购以来首 次发布升级换代产品。据悉,PICO4产品配置达到行业领先水平。全...
日期:09-28
双十一大促海量数据信息如何求稳  华为云数据库为您保驾护航
  一年一度的双十一狂欢盛典刚刚落下帷幕,面对暴涨的业务、暴增的订单,企业该如何确保服务器稳定运行呢?不要担心,华为云数据库精心准备了一份应对策略,时刻为您保驾护航。...
日期:02-11
网购业现状:大多在苦苦挣扎盈利只是少数_网购的兴起
  近两年来,第五大道、唯品会、走秀网、魅力惠、佳品网、尚品网、聚尚网……这些电商市场细分出来的奢侈品折扣网站纷纷崛起,在一线城市已呈白热化。短时间内,谁能“圈”走...
日期:07-30
谷歌表示今年将继续大举收购 以小公司为重点(谷歌两家上市公司)
  谷歌企业开发副总裁大卫拉威(David Lawee)昨日在接受采访时表示,公司去年创纪录地收购了48家公司。虽然现在面临着初创公司价值飞涨等困难,但公司今年将继续大举收购。谷歌...
日期:07-26
一天卖出 1200 万,AR 眼镜怎么就「火」了?「ar眼镜市场」
相比于高举高打,保持「接地气」,反而可能是 AR 成功的正确路径。作者 | 靖宇接近 10 年前的 2013 年,Facebook 创始人马克·扎克伯格,以 30 亿美元的价格收购 Oculus VR,掀起了之...
日期:09-15
迪士尼小美人鱼真人版电影「迪士尼发布真人版《小美人鱼》新电视预告片」
迪士尼发布了即将上映的真人版《小美人鱼》的新电视预告片,片中爱丽儿坠入爱河并决心保存她的王子的感人一幕。重要原因:随着上映日期的临近,迪士尼正在加大对这部备受期待的电...
日期:04-18
京东快递全新保价服务“全额保”上线:快件全损全额赔「京东快递保价理赔流程」
9月29日消息,从京东快递方面获悉,今日,京东快递面向个人寄递场景推出全新保价服务全额保。官方表示,消费者在寄递物品时购买该服务,可在保价范围内享受足额赔偿,同时将有专人专线...
日期:10-02
facebook community_Facebook要整合消息平台?
  (原标题:Facebook要整合消息平台?额外的监管压力已经来了)   北京时间1月28日早间消息,关于Facebook欲整合旗下三个消息平台的报道,很可能会导致这家已经面临细致司法...
日期:04-12
寺库 奢侈品_奢侈品电商第一股寺库人去楼空
来源:北京商报   寺库的危机正在不断浮出水面。8月16日,北京商报记者探访发现,曾经摆满了奢侈品的寺库大厦如今已空空如也,仅剩5层还有部分工作人员,大厦内还专门设立了消费者...
日期:08-18
ff91融资最新消息「FF盘前跌约20% 此前称预计2023年4月开始交付FF91」
12月16日 消息:截至发稿,FaradayFuture(FF,法拉第未来)美股盘前跌约20%。今日早间,FF公布融资进展及产品升级。FF称,预计2023年3月底在FF的制造工厂 “FF ieFactory California”...
日期:12-16