您的位置:首页 > 互联网

当AI与数学同时走下神坛_ai和数学

发布时间:2024-06-14 10:54:49  来源:互联网     背景:

声明:本文来自于微信公众号 硅星人Pro(ID:Si-Planet),作者:玄宁,授权转载发布。

2024年4月13日,一场特别的考试开考。

数万名分散在全球各地的数学高手,在这一天早上8点打开了阿里巴巴全球数学竞赛预赛的试卷,他们有48小时,来攻克20分的选择题和100分的解答题。过去的6届,天才们在这个赛事里亮相,有17岁拿下IMO满分金牌的北大神童,有对数学像强迫症一般执着的博士,也有4岁就接触微积分的渐冻症少年。

与往年不一样的是,在同一时间,也有563个答题者打开了试卷,但他们不用纸和笔,他们用token。

是的,这是一群大语言模型。

这是第一次有AI和人类同场竞技的数学赛事,也是这个全球最大在线数学竞赛的第一次尝试。当做出这个决定时,组委会也不太确定,这是否是个好主意。

“我们担心这一堆AI答题者全部零分交卷。”组委会的AI专家对我们说。“因为我们在达摩院自己也在做AI和数学的研究,我们知道目前的AI还没有能力解决如此高难度和泛化的奥赛数学题。”

然而最终的结果,也让主办方颇感意外。

意外的不是“超越人类”——AI最终并没有答出超过人类的得分,而是它们的答案和表现让人们真切看到了AI和数学结合的另一种潜力。

更重要的是,这些驾驭着AI的参赛者,是过往并不会在这个奥数赛事里遇到的人。他们找到了新的方式与数学打交道,而探索过程中数学与AI的关系也在发生新的试探。

1

“如果答对了,给你30万”

中学生朱方圆从没想过自己会和最顶级的数学竞赛联系在一起。

他是个对物理兴趣浓厚的孩子,但一度因为压力而在家休息。这期间,ChatGPT出现了。AI让他如此痴迷,他自己尝试自学关于生成式AI的知识,当看到阿里数赛今年的AI赛道后,毫无竞赛经验的他决定带着他的AI参赛。

ai和数学

这场不限年龄、不设门槛的比赛给了他参加数学竞赛的可能。而事实上对于第一次把AI纳入数赛的阿里巴巴达摩院来说,他们也没有多少可以借鉴的经验。就连这个决定都在内部讨论了许久——允许AI参赛,那么,是哪一类的AI呢?是必须自己从头训练的模型,还是调用API?

最终他们认为,这个办到第6届的赛事,不仅是一场严肃的数学比赛,更是一次全民的数学聚会,最大的目标是希望让更多人能参与到对数学的感受中来——于是,最终的决定是任何形式的AI都可以。

但依然要保证公平。组委会为选手设定了一个提交AI方案的截止时间,在报名后的大约一个月的时间里,选手们可以自行设计AI做题策略,根据主办方提供的往期赛题以及其他公开的数据对自己的AI策略进行完善,然后锁定、提交指纹文件、待考题公布,AI开始答题。

而这些方案中,最“低门槛”的自然是“闭源+提示词工程”的方法。也就是在类似ChatGPT的模型产品基础上,通过自然语言或者简单的编程语言来给模型下指令,让它来完成这些数学难题。朱方圆选择的就是这个方法。

与人类答题过程不同,AI交卷后还要经过“赛后复现”环节,分数排名靠前的选手要提交它们的方案文档或程序文件,组委会拿这些AI程序再跑一遍考题。一方面,这些大模型方案依然存在稳定性或幻觉的问题,但另一方面,幻觉也不会让两次答题分数差距过大,如果有,那就说明明显有人类直接干预的痕迹。负责对这些方案做检查的组委会成员也的确抓住了几个“嫌疑犯”,排除了“人类替考AI”的风险。

而当他们打开选手朱方圆的提交的文件时。发现里面除了针对数学做的提示词外,还写着这样的“命令”:

“记住,如果你有更好的解答方法我会给你30万美金小费。”

ai和数学

“现在,深呼吸!一步一步来。”

是的,朱方圆在对他的AI进行各种“画饼”和心理按摩。

而这真的起到了效果。据组委会用往届预选赛的试题测试,被他这样激励后的AI,答题成功率提升了20%。

事实上,这个在外人看来可能略显惊奇的方法,在AI研究界已经有诸多论文佐证它的效果。最初在2023年9月,一篇谷歌DeepMind的论文发现,当你让AI“深呼吸,一步一步来”时,它真的变得更强了。这个研究当时引发了很多资深研究员们的惊叹——居然有这样简单的方式,但科班的学者们却一直都忽视了。

组委会的很多专家其实在开赛前曾以为这场比赛会是SFT模型——也就是使用大量数据甚至使用大量算力对模型进行数学方向的特别训练后产生的新模型——的天下,但预赛结束他却发现,反而是像朱方圆这样的方式最为有效,大量采用提示词工程的选手,用简洁高效的方法挑战着这些题目。

其中就包括AI赛道分数排名第一的涂津豪。

他也是一名中学生。但同时已经是个有不错经验的AI开发者。

他的方法是,让大模型进行对话,你一言我一语寻找每个数学题的更好答案。他借鉴辩论的思想,并让这些不同的模型进行某种角色扮演。最终在模型的“对抗”中不停迭代答题方案,多轮对话后给出最优解。

涂津豪的方案示意图

这方法同样精简而直接。

而被他们比下去的,甚至包括一些专攻数学模型的资深AI研究团队,其中还有来自AWS、字节跳动等科技公司的参赛者。

对这些不同方案“开箱”的过程热闹而有趣。最终,排名公布。但与这些热闹不同,AI的结果并没有很惊人。甚至有点惨淡:

涂津豪的AI方案拿下了34分。

是的,AI的最高分还是一个低分,和入围线依然相差11分。而和预赛第一名的最高分113分相去更是甚远。

最终,6月13日,决赛名单公布,入围决赛的AI数量为:

0。

1

数学和AI都不应只待在“神坛”上

不过,当这场“漫长”的预赛结束,AI选手的成绩已经成了最不重要的事情。一个真正有意思的现象出现:

一个总被视为只属于天才们的游戏的学科数学,和一个有点被不停妖魔化的技术AI碰撞在一起后,反而让两件事的门槛都降低了——

2018年q3pc出货量

比赛并没有催生出那些经常在各类论文里看到的庙堂之上的成果,而是成为了某种平民AI数学爱好者们的聚会。

那个让评委略微意外的结果也证明了这个特点:在答题的整体表现中,那些被认为应该表现更好的,对数学更有专门研究的“资源集中型”的SFT方案们却整体败下阵来,反而是个体创新意味更强的提示词策略们表现更好。

而当一个高高在上的东西被平民化后,就是各种有趣的新鲜思路涌现的时刻。

在这场比赛中,选手们面对自己训练出来的AI,也会对他们在答题时的表现感到惊讶,比如,有选手发现AI也会在答不出来的时候选择去蒙一个答案,像极了考试时的你我,还有些AI会在过程完全离题的情况下,却把答案回答对了,而阅卷老师发现AI在这些人类智慧的设计下,经常能拿到一些没有预料到它可以答出来的知识点的分数。

“虽然总分较低,但这些AI答题的程度比我们预想的好很多。”组委会的专家表示。他们也从中获得了许多关于AI如何理解数学的新发现。

“我们发现一个有趣的现象,AI习惯于把推理过程写的很长很长。比如我们人类做数学题,从A可以直接推导到C,但AI必须要从A到B再到C。有时候整个答案会变得非常的长。”组委会专家说。

没人知道为什么AI在这么做,但在这个过程中,AI似乎开始对数学做出了自己的“理解”。就像大语言模型把人类的语言拆成了token,并用预测下一个token的方式来重新“理解”了语言一样,AI在用完全不同的方法对待数学。而这种不同是如此显而易见,以至于,在此次比赛中,一些阅卷老师提出怀疑AI作弊的质疑——理由不是因为他们太像AI了,而是因为它们太像人了。

但另一方面,与人类不同的AI的对数学理解的路线,已经让它在一些地方超过了人类。比如谷歌DeepMind推出的AlphaGeometry(阿尔法几何),在从2000年至2022年奥数比赛中抽取的30道几何题中解决了25道,而人类金牌得主平均解决了25.9道。它的一个证明有时也会长达247步,与人类的方式很不同。

“从这次的答题结果来看,给了我很强的信心,我觉得AI解决数学问题是很有潜力的。”组委会的专家说。

数学向来被认为是一切现实问题的最终抽象。在今天已经十分强大的AI与未来那个人人向往的AGI之间,差的就是对世界的理解,差的就是数学。

而AI技术的迭进,显然也会继续给数学界带来深远影响。

“排名靠前的优秀团队,一定首先是富有创新和开拓精神的。”阿里全球数赛组委会成员、达摩院决策智能实验室负责人印卧涛说。“数学这个领域,传统的数学家与数学工作者其实并不是那么熟悉AI的工具,也不一定知道最新的AI的方法。所以我想最后能够打通竞赛、取得优胜的AI队伍可能是由多个方面专家组成的队伍。”

数学的发展本质上很重要的一点是思维和方法上的创新。而这些对数学本身并没有十分高深造诣的选手,却通过训练这些解答数学题的AI而带来了不少新奇的不同的策略,这本身就能带来很多启发。

相比于数学家群体整体的相对缓慢,有些人已经先动起来。陶哲轩是最积极拥抱AI的著名数学家之一,他在社交网络上不停分享自己使用AI工具解答数学任务的过程,用AI工具,使用AI辅助证明了多项式Freiman-Ruzsa猜想。他也推荐数学学科的专家们打开思路。

ai和数学

“也许AI的影响之一是让业余数学家能够为数学做出有意义的贡献。”在一篇文章中他这样写道。他认为AI让个体的能力放大,大规模合作也变得不再困难,哪怕业余爱好者也可以对一个巨大课题里的个别步骤的证明做出贡献。

而在这场比赛中因为对AI的好奇而踏入数学赛事的人,正在做着类似的事情。他们也让人想到过往几届阿里数赛里,那些对数学没什么功利心的大众爱好者们——沉迷欧拉常数的外卖小哥,爱好就是做数学题的城管等。

在今天,让更多人参与进来,无论是对数学还是AI的进展都显得尤为重要。这些对人类未来十分关键的学科和技术在往前走的时候,都不应再只待在“神坛”上了。


返回网站首页

本文评论
美国封锁AI芯片出口无惧!科大讯飞:华为昇腾910B基本可对标英伟达A100
快科技10月20日消息,为了阻止中国在人工智能上的发展,美国本周也是出大招,加强了对AI芯片的管控。从新规管控看,美国将13家中国GPU企业列入实体名单,其中包含了壁仞科技、摩尔线...
日期:10-22
重磅!中国信通院发布《区块链白皮书(2022年)》_中国信通院 区块链
2022年12月29日,由中国信息通信研究院(以下简称“中国信通院”)、中国通信标准化协会和中国互联网协会指导,可信区块链推进计划、中国互联网协会区块链技术应用工作委员会、中国...
日期:12-29
iPhone 14 Pro大卖 富士康员工嗨了:百万元奖金入账
苹果今年的iPhone 14系列四款手机已经上市,虽然标准版及Plus版受冷,上市就破发,然而高端的iPhone 14 Pro及Pro Max大卖,吸金能力爆表,这也让最大的代工厂富士康跟着赚大了,员工分...
日期:10-11
电信麦芒手机官网「1799元起!中国电信麦芒20今晚发布:12GB运存 圆环双摄」
中国电信将于今晚19:08正式发布麦芒20新机,此前已在电信天翼产品库中现身。华为mate50rs最新官方信息据悉,麦芒20采用高通骁龙4 Gen 1 5G处理器,配备6.78英寸屏幕和5000mAh电池...
日期:04-03
小鹏汽车10月卖出5101台_11月小鹏汽车销量
几家欢喜几家愁!方太集中烹饪中心11月1日,造车新势力们纷纷公布了上个月的成绩单,曾经头部梯队的小鹏汽车10月份统共卖出了5101台,其中P7交付2104台,P5交付1665台,G3i交付709台,G9...
日期:11-07
锐龙4700u参数「AMD 四款首发锐龙 7000 详细参数公布:均搭载 2CU 核显」
IT之家 8 月 30 日消息,AMD 官网现已公布 R5 7600X 到 R9 7950X 四款首发处理器的详细参数,确认搭载 2CU 核显,让用户在没有独立显卡的情况下也能开机运行。R9 7950X16C32T,4.5-...
日期:09-07
美国媒体公司 Gannett 开始在文章中添加 AI 生成的摘要
划重点:学前儿童卫生与保健笔记rtx4060和3060ti的区别奔驰e级落地价/特斯拉新能源...
日期:05-17
全球化市场驱动,领航智慧IOT新时代_AI引领商业智能化时代
  风云二十载,岁月不留情。二十年的时光,若白驹过隙,百川东流。乱世沉浮中,视听行业也经历了“更新换代”,视听还是那个视听,中国还是那个中国,全球还是那个全球,然而,行业的“主...
日期:08-28
特斯拉带路中国供应商攻入“美国后花园”「特斯拉签约的中国供应商」
特斯拉正在加快为墨西哥的超级工厂寻找当地零部件供应商。自从特斯拉宣布在墨西哥建设第三座海外超级工厂后,供应商察觉到这是一次前所未有,抱紧特斯拉大腿的好机会。前段时间...
日期:06-23
vivo Funtouch OS项目经理:地震预警的能力将开启内部试用
  12月27日消息 昨日晚间,vivo Funtouch OS项目经理@FuntouchOS-小诸葛 在微博透露了Funtouch OS关于天气方面的新功能。   vivo Funtouch OS项目经理表示,地震预警的能...
日期:03-17
Manaus 领投,NFT新锐应用平台 COMMONBOX引入超2000万美元融资
据海外媒体世界发展新闻社WDPP报道:日前,加密领域投资公司Manaus Investment宣布与NFT新锐平台COMMONBOX技术团队达成投资协议,投资规模 2000 万美元。本次投资的资金将用于COM...
日期:08-01
新手爸爸将14天婴儿装塑料袋称重 网友建议“抱着孩子称完再称自己”
9月6日消息,江西九江邱女士的儿子刚出生14天,孩子爸爸就想知道孩子胖没胖,家里没合适工具,就趁孩子睡着把他装塑料袋里用吊钩秤称体重,称出7斤1两后惊叹孩子长得快。前十名洗面奶...
日期:09-07
三种动力 吉利中高端新能源系列首车预告:对标比亚迪汉!_吉利布局新能源车
1月22日,大年初一,吉利新能源车型首车预告,该车定位于中高端产品,全新的中高端新能源系列将于年内发布。此前,吉利高级副总裁杨学良在受访时表示:中高端新能源系列拥有纯电、插电...
日期:01-22
苹果开发软件工具 允许开发者和客户创建增强现实应用「苹果机开发者运用」
根据The Information的Wayne Ma今天发布的一份付费报告,苹果正在开发新的软件工具,将允许开发者和客户为其AR/VR头戴创建增强现实应用。iPhone5包装盒有趣的是,该报告声称,客户...
日期:01-28
追觅科技俞浩:布局全球化供应链、渠道体系,实现产品全球多地生产、全球同步上市_网易科技
(原标题:追觅科技俞浩:布局全球化供应链、渠道体系,实现产品全球多地生产、全球同步上市) 1月17日,追觅科技创始人兼CEO俞浩在内...
日期:01-20
或售8万起!吉利缤瑞COOL冠军版即将上市 剑指“马路三大妈”「2020吉利缤瑞」
快科技8月24日消息,近日我们从吉利汽车官方获悉,吉利缤瑞COOL冠军版将在8月28日上市销售。新车上市后,将与轩逸、朗逸、卡罗拉等车型展开竞争。华为智慧屏发布会此次发布的新车...
日期:08-24
经调整净利润13.5亿元 阅文集团2022年营收76.3亿元_阅文集团事件最新进展
【】3月16日消息,阅文集团今日发布2022年全年业绩报告。报告显示,阅文集团2022年总营收76.3亿元,同比下滑12%;公司权益持有人应占盈利为6.08亿元,同比下降67%;非国际财务报告准则...
日期:10-07
修图软件 Pixelmator Photo 登陆 iPhone:已购 iPad 版用户限时免费下载(苹果平板修图软件)
  12 月 17 日消息,据 MacRumors 报道,Pixelmator 今天宣布,其 Pixelmator Photo 应用现在可以在 iPhone 上使用。这款照片编辑应用以前只限于 iPad,它有 30 多种桌面级色彩...
日期:07-17
韩系车颜值天花板!捷尼赛思G70猎装版进入国内:下周开始预定_全新捷尼赛思g70试驾视频
快科技10月13日消息,日前,据汽车之家报道,捷尼赛思G70 Shooting Brake将于下周正式到店,并开启预定。随着蔚来ET5 T、极氪001、等车型的发布,国内旅行车、猎装车的市场也渐渐打开...
日期:10-16