您的位置:首页 > 互联网

OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明

发布时间:2024-12-28 12:00:23  来源:互联网     背景:

声明:本文来自于微信公众号 量子位,作者:奇月,授权转载发布。

一个全新的模型能力衡量指标诞生了?!

OpenAI科学家塞巴斯蒂安・布贝克(Sebastien Bubeck)(下图左)表示:

AI模型的能力可以用AGI时间来衡量:

GPT-4可以完成人类需要几秒或几分钟的任务;o1可以完成人类需要若干小时完成的任务,也就是可以用“AGI小时”衡量的任务;明年,模型可能会实现AGI日,并在3年后实现AGI周,能够解决重大的开放问题。

看到AGI时间这个新概念,网友们也是立即就展开了热烈的讨论。

微软离职率

有人认为,如果模型可以达到人类需要数周或数月才能完成的任务,也就代表它可以将长期推理和计划结合起来,也就和真正的AGI差不多了:

不过也有人表示这个说法有点模糊,人脑也很难机械地把任务完成时间限定为几个月、几年:

而反方辩手汤姆·麦考伊(Tom Mccoy)则对LLM能否解决复杂的开放性问题持怀疑态度。

他表示,语言模型虽令人惊叹,但能力源于训练数据,目前没有证据显示它们可以产生能解决开放问题的新范式。

让两位大佬争论不休的问题,就是最近由世界知名理论计算机科学机构Simons Institute提出的辩题:

当前基于缩放定律的LLM,能否在未来几年内产生可以解决重大数学难题(如P≠NP、黎曼假设)的证明技术。

持正方观点的塞巴斯蒂安・布贝克是应用数学博士,曾在普林斯顿大学担任助理教授,后在微软研究院任职十年,主导开发了 Phi 系列小语言模型,也是Sparks of AGI(AGI的火花)论文的重要作者之一。

特斯拉充满电费

此次辩论中,塞巴斯蒂表示他坚信LLM潜力无限,认为以当前模型的能力加上更多的数据和后期训练就足以解决数学难题。

反方辩手汤姆是认知科学博士,现任耶鲁大学语言学助理教授,

他也是“Embers of Autoregression(自回归余烬)”论文的主要作者,文中他深刻剖析了当前LLM的局限性。

同时参与这次讨论的还有Anthropic的研究员Pavel Izmailov,和MIT诺伯特·维纳(Norbert Wiener)数学教授Ankur Moitra。

在不改变原意的基础上,量子位对本次辩论的主要观点进行了梳理总结,希望能带给你更多的启发和思考。

正方:o1已展现出自发的涌现模式

塞巴斯蒂安首先用数据回顾了LLM最近几年的发展历程,他表示GPT系列已在多领域的基准测试上都表现亮眼。

比如在MMLU测试中,GPT-4成绩飙升至86%,o1模型更是逼近95%,远超 GPT-3的50%,在高中科学知识问答方面已接近人类90% 的水平。

在医学诊断领域,GPT-4准确率高达90%,远超人类医生的75%,有力证明了模型强大的学习与应用能力,且这种提升趋势为解决数学难题奠定基础。

△图片来自论文Superhuman performance of a large language model on the reasoning tasks of a physician

他进一步指出:

智能发展层级递进显著,GPT-4只有AGI秒级思考能力,而o1模型已达AGI分钟甚至小时级别。

依此趋势,未来实现AGI日级、周级思考时长指日可待,可能明年、后年就能达到。

届时,模型将拥有充足时间和能力深入思考复杂数学问题,从而找到解决重大猜想的路径。

同时他还强调了后训练技术的重要性:后训练技术是挖掘模型深层潜力的关键。

从GPT-3.5开始,模型就可以实现在后训练过程中提取智能。到了o1模型时代,其采用的强化学习等创新训练范式,使模型在复杂任务(比如编程、数学)处理上实现质的飞跃。

尤其是在特定数学问题中,o1能迅速关联看似不相关的知识概念,自发地涌现出一些新的思路,为解决难题提供新线索。

摆脱手机依赖症的app

反方:当前缩放定律依赖数据、存在幻觉,难以产生新思考模式

汤姆则认为,目前LLM的发展存在3个明显制约:

1.LLM受训练数据频率限制严重:

在单词计数和排序任务中,数据频率影响清晰可见。如统计单词数量时,对常见长度列表准确率高,罕见长度则大幅下降;排序任务中,对常用的字母正序处理良好,逆序则表现不佳。

这表明模型在面对新证明技术这类低频任务时,缺乏创造性突破的根基,难以跳出训练数据的固有模式。

而且,根据各种测评数据,模型能力与数据量级呈对数关系,未来想要提升模型能力需要新的指数级数据,而目前已有严重数据瓶颈,在未来几年很难迅速突破。

2.长推理过程中的幻觉问题是致命伤:

三星屏下指纹获专利

即使类o1模型在多步推理场景下进步显著,但LLM仍易生成错误信息。随着数学证明篇幅拉长,极低的错误率也会因累积效应使证明失效。

也就是人们常说的“薄弱环节会破坏整个推理链条”,严重阻碍模型解决复杂数学证明的能力。

o1已经可以和人类专家合作,但想要独自解决数学问题,必须做到超越人类,目前看起来比较困难,甚至还无法达到以稳健的方式使用现有想法。

3.当前缩放方法本质缺陷难破:

基于语言预测的训练模式,使模型在处理数学问题时难以直接触及深度推理和创新思维核心。

比如在数学符号处理和抽象逻辑推导方面,模型的处理方式与专业数学方法相比缺乏专业推导,需要从底层架构和训练理念上进行彻底变革。

随后正方还对反方观点进行了驳斥。

塞巴斯蒂安表示,当前很多人类的顶级成果是依靠组合现有知识产生的,而模型在这个方面的能力会通过强化学习进一步发展。

而且人类在超过50页的证明中也经常会出错,未来可以让不同的智能体进行合作互相指正,可以有效减少这一方面的失误。

其他专家:需结合证明验证器、符号空间探索等方式

Anthropic研究员帕维尔・伊斯梅洛夫也发表了观点,他认为LLM在识别数据结构上确有优势,但数学领域专业性强,需借助强化学习与Lean等证明验证器构建有效训练机制。

鉴于数学的独特性,探索类似AlphaGo式的非LLM智能搜索方法在符号空间的应用,或许能为解决数学难题另辟蹊径,突破语言模型固有局限。

针对观众的提问“飞机也不是完全模拟鸟类的飞行,为什么一定要要求LLM模拟人类思维”的问题,帕维尔首先表示赞同,AlphaGo带给人类的一个惊喜正是来自于它可以用很多人类没有的方法下棋。

但同时他也指出:

也许以人类的方式做事的唯一理由是,如果我们关心的是试图理解证明、并提取一些定义之类的东西,那么我们希望它至少是类人或人类可读的。但我认为如果我们关心的是证明能力,比如能够证明事物,那么不一定要以类人的方式。

MIT诺伯特·维纳数学教授安库尔・莫伊特拉(Ankur Moitra)也发表了自己的看法。

他也赞同重大数学问题的解决绝非简单的能力堆叠:

我们关心数学难题,关心的不只是具体的证明细节,更希望可以在证明的过程中产生可以引发数学体系变革的新想法。

他认为当前LLM 虽在部分任务取得进展,但与解决如黎曼假设这类问题所需的深度和创新性仍相距甚远。

安库尔还提议,未来模型发展或许应聚焦于知识在模型中的有效表示、数学家与模型间的高效协作模式等关键层面,探索新的突破方向。

现场还进行了一次不记名投票,可以看到正反方的观点基本还是持平的~

感兴趣的朋友可以查看完整视频和论文。

请在手机微信登录投票

你觉得未来几年内LLM可以解决重大数学难题吗?单选可以不可以钝角

参考链接:

[1]辩论完整视频:https://www.youtube.com/live/H3TnTxVKIOQ

[2]Sebastien Bubeck撰写的论文Sparks of AGI:https://arxiv.org/abs/2303.12712

[3]Tom McCoy撰写的论文Embers of Autoregression:https://arxiv.org/abs/2309.13638


返回网站首页

本文评论
山东一动物园动物集体“胖炸” 园方:动物们囤积脂肪御寒_山东一动物园游客
2月19日消息,据国内多家媒体报道,有网友在社交平台上称,他在山东一家野生动物世界看到好多动物都喂得圆滚滚的。美国对电动车的政策对此,园方作出回应,称部分动物长胖是为了囤积...
日期:02-20
祝融号火星探测器最新消息「祝融号火星车、FAST天眼等入选-2022年度中国科学十大进展公布」
IT之家 3 月 18 日消息,据中国科学院院刊消息,3 月 17 日,科技部高技术研究发展中心(基础研究管理中心)发布了 2022 年度中国科学十大进展,IT之家汇总如下:祝融号巡视雷达揭秘火星...
日期:10-06
tcl模具「行业首家!TCL实业通过国家大模型算法备案」
近日,TCL实业再创智能家电领域先河,成为国内头家通过大模型算法备案的家电厂商。TCL大模型算法获得国家互联网信息办公室的备案认可,意味着TCL具备了正式向用户开放使用该算法...
日期:02-05
成功路上充满质疑和不易,张大奕用行动证明能力!
  在互联网上,尤其是随着自媒体盛行,越来越多人都喜欢通过网络来娱乐、消遣;正因为互联网的发展,传播速度过快,让人会经常遭受到异样的看法和不解。作为网红,很多人认为...
日期:07-14
讯飞星火和文心一言有什么区别?讯飞文心一言哪个厉害
讯飞星火和文心一言是两个不同的产品,各自有其特点和优势。那么讯飞星火和文心一言有什么区别哪个更厉害呢?下面就给大家带来讯飞星火和文心一言的特点介绍。1. 讯飞星火:讯...
日期:10-25
工信部向航天宏图信息技术股份有限公司颁发空间无线电业务许可
通信世界网消息(CWW)11月9日,我国酒泉卫星发射中心使用长征二号丙运载火箭,以一箭四星方式,成功将航天宏图信息技术股份有限公司株洲太空星际PIESAT 02组01至04星送入预定轨道,发...
日期:11-11
288核芯片、4000颗AI处理器做的超算、不用联网的大模型…英特尔要反击了!
声明:本文来自于微信公众号硅星人Pro(ID:gh_c0bb185caa8d),文|王兆洋编辑| VickyXiao,授权转载发布。2022年,在英特尔大会的演讲前,英特尔CEO帕特-基辛格在后台做俯卧撑起跳;而今...
日期:09-20
极光金融2021年最新消息_极光公布2021年第一季度财报
  2021年6月10日,中国深圳——中国领先的移动开发者服务提供商极光(Aurora Mobile,纳斯达克股票代码:JG)(以下称“极光”或“公司”)今日公布截至2021年3月31日第一季度未...
日期:10-16
信通院孟楠:卫星互联网、算力、6G等为网络安全带来新挑战_信通院 孟楠
通信世界网消息(CWW)没有网络安全就没有国家安全,就没有经济社会稳定运行,广大人民群众利益也难以得到保障。为此,网络安全的重要性与日俱增,成为社会各界关注的重点话题。在近日...
日期:12-25
泰森怒批流媒体巨头Hulu是“奴隶主”:他们偷走我的故事,却不给钱
【环球时报特约记者 吕 克】据法新社9日报道,在备受关注的剧集《迈克》即将在流媒体平台Hulu上开播之际,前世界重量级拳王迈克·泰森怒斥该剧“偷走”自己的生活,并把Hulu比喻...
日期:08-11
齐博B2B电子商务系统1.0免费版发布!
  产品特性   齐博B2B系统是一款基于PHP程序和Mysql数据库为基础的开源B2B行业门户电子商务网站建站系统,   系统代码完整、开源,功能全面,架构优秀,提供良好的用户体验...
日期:07-25
中国联通2020年全国劳模「砥砺铸秋实 风劲更远航 ——记中国联通2023年度集团级劳模风采」
砥砺铸秋实 风劲更远航 ——记中国联通2023年度集团级劳模风采 通信产业网|2024-01-10 18:39:19作者:通文来源:通信产业网2023年,中国联通涌现出一大批先进模范人物,他们奋斗在...
日期:01-11
全球疫情_QM报告:百度是网民获取疫情信息的最大媒体平台
  3月10日,第三方机构QuestMobile对外发布《2020中国移动直播行业“战疫”专题报告》。报告显示,百度App是网民获取疫情信息的最大媒体平台,用户规模远超今日头条、QQ浏览器...
日期:04-24
国铁西安局回应火车内设麻将桌:系主题定制列车 还有KTV、影院
日前,有网友晒出的一段在火车上打麻将视频走红,引发了网友热议。这让不少朋友有些疑惑,在火车上还能打麻将了?还是自带麻将机的。摩托罗拉一亿像素据九派新闻报道,国铁西安局旅服...
日期:01-14
中兴通讯 人工智能「全栈智算 中兴通讯AiCube训推一体机亮相中移合作伙伴大会」
通信世界网消息(CWW)近日,中国移动全球合作伙伴大会上,中兴通讯展示了AiCube训推一体机,旨在为运营商和行业用户提供全栈智算解决方案,为企业数字化转型赋智提效。华为 万能钥匙20...
日期:10-11
OPPO Find N2售价公布 起售价7999元「OPPO新款价格」
中关村在线消息:OPPO新品发布会正在进行中,到了大家最为关心的价格时间。OPPO Find N2起售价为7999元,具体售价信息如下显示。iphone 14玻璃供应商12GB+256GB:7999特斯拉megapack...
日期:12-16
《奥本海默》日本上映观众情绪复杂:唯一遭受过核打击的国家_奥本海默核弹语录
快科技4月1日消息,经历了一系列波折,《奥本海默》终于3月29日在日本上映。这部在今年奥斯卡获得7项大奖的影片,引发了日本观众的复杂情绪。影片涉及了奥本海默发明的原子弹摧毁...
日期:04-01
中国教育发展战略学会副会长李志民:游戏化教学有助于提高学习效率
  随着科技的不断发展,在线教育涌现多样化的教学形式,游戏化教学成为激发孩子学习的新的“驱动力”。5月9日,腾讯开心鼠联合中国教育在线举办的“未来启蒙教育:游戏化学习的...
日期:07-22
周鸿祎毕业学校「周鸿祎回应清华读博:重新去学习做一个工程师」
快科技6月28日讯,周鸿祎今日再度谈及自己去清华读博一事,他表示,我最近不也是又报名上了清华,电子信息专业,重新去学习做一个工程师。人工智能的发展还是要以人为本。”按照周鸿...
日期:06-29
不包含机器人发展相关举措_机器人日益融入实体经济 多部门出台措施支持拓展应用空间
拿到新iphone岳洋合 制图小马智行董事长iphone12mini电量百分比不见了vr产业峰会当前最性价比高的手机   ◎记者 李雁争   最近一段时间,小米、腾讯等多家公司发布机器人...
日期:08-15