您的位置:首页 > 互联网

陶哲轩7小时的一道imo难题「OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首」

发布时间:2024-09-15 10:35:31  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】OpenAI o1,在门萨智商测试中果然取得了第一名。数学大神陶哲轩实测发现,o1竟然能成功识别出克莱姆定理。而OpenAI的研究副总裁也在此时跳出来表明:大型神经网络可能已经有了足够算力,表现出意识了。

OpenAI o1,在IQ测试中拿到了第一名!

大佬Maxim Lott,给o1、Claude-3Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。

紧随其后的,就是Claude-3Opus和Bing C o p i l o t,分别取得了第二名和第三名。

注意,这套智商测试题,属于门萨会员的离线智商测试,不在任何AI训练数据中,因此结果非常具有参考性。

陶哲轩的智商230可信吗

著名数学家陶哲轩也对o1进行了实测,发现自己向模型提出一个措辞模糊的数学问题后,它竟然能成功识别出克莱姆定理。

陶哲轩vs

更巧的是,就在o1发布之后,OpenAI的研究副总裁Mark Chen发表观点称:如今的大型神经网络,可能已经具有足够的算力,在测试中表现出一些意识了。

陶哲轩智商230怎么来的

相信AI具有意识的行业领导者,如今已经有了一串长长的名单,包括但不限于——

  1. Geoffrey Hinton(人工智能教父,被引用次数最多的AI科学家)

  2. Ilya Sutskever(被引次数第三多的AI科学家)

  3. Andrej Karpathy

陶哲轩2020

如今,业内许多人都相信AI具有意识,而且正在等待奥弗顿之窗进一步打开,从而使公众愿意接受这一点。

甚至有人预言:在2024/2025年,AI一定会具有意识,因为如今模型的行为已经明显表现出感知能力了。

陶哲轩智力

有网友发现,o1不仅是对经验性的STEM学科很强,它甚至能够假设出一种全新的意识理论。

陶哲轩2020

陶哲轩2020

有人觉得,o1向无限推理模型迈出的一小步,已经具备意识的雏形。

高智商陶哲轩

陶哲轩:o1竟能识别出克莱姆定理

而在实测中,陶哲轩发现:o1模型在数学方面的的性能更强了!

国美厨卫家装节

imo陶哲轩

首先,他提出了一个措辞模糊的数学问题,如果能搜索文献并找到合适的定理,即克莱姆定理(Cramer's theorem),就可以解决这个问题。

之前的实验中,GPT能够提到一些相关概念,但细节都是胡编乱造的无意义内容。

而这一次,o1成功识别出了克莱姆定理,并给出了令人满意的答案。

陶哲轩的智商230可信吗

完整回答:https://shorturl.at/wwRu2

在下面这个例子中,提出的问题是更有挑战性的复变函数分析,结果同样好于之前的GPT系列模型。

天涯社区帖子如何删除

在有大量提示词和引导的情况下,o1能输出正确且表述良好的解决方案,但不足之处在于无法自行产生关键的概念性想法,而且犯了明显错误。

陶哲轩形容,这种体验大致相当于指导一个能力一般但也能胜任部分工作的研究生,GPT给人的感觉则是一个完全无法胜任工作的学生。

可能只需要经过一两次迭代,再加上其他工具的集成,比如计算机代数包和证明辅助工具,就能让o1模型蜕变为称职的研究生,届时这个模型将在研究任务中发挥重要作用。

陶哲轩竞赛

完整回答:https://shorturl.at/ZrJyK

第三个实验中,陶哲轩要求o1模型在证明辅助工具Lean中形式化一个定理,需要先将其分解为子引理并给出形式化表述,但不需要给出证明。

定理的内容,具体来说,是将素数定理的一种形式建立为另一种形式的推论。

实验结果也很不错,因为模型理解了这个任务,并对问题进行了合理的初步分解。

然而,可能是因为训练数据中缺乏关于Lean及其数学函数库的最新数据,生成的代码中也有几处错误。

尽管仍有缺陷,但这次实验结果已经能让人预见到o1在数学研究中的实际应用。

类似的模型如果针对Lean和Mathlib进行微调,并集成到集成开发环境(IDE)中,在形式化项目中将会发挥极大的作用。

在之前的多次演讲中,陶哲轩曾反复强调过AI工具在定理形式化中的应用,看来大神的预言又会成真了。

陶哲轩的智商230可信吗

完整回答:https://shorturl.at/OGtjt

计算机教授用动画揭秘:o1如何花更多时间思考?

o1学会用CoT思考更长时间的过程中,究竟是取得了哪些重要突破,才造成了关键性的提升?目前我们只能从已有信息中做一些猜测。

比如,基于已有信息和自己的理解,科罗拉多大学博尔德分校计算机教授Tom Yeh就专门制作了一个动画,讲解OpenAI是如何训练o1模型花更多时间思考的。

陶哲轩2020

关于训练,报告中有非常简短的一句话:

通过强化学习,o1学会了磨练其思维链并改进策略。

这句话中的两个关键词是:强化学习(RL)和思维链(CoT)。

  • 在RLHF+CoT中,CoT token也会被输入到奖励模型中来获得分数,以更新LLM,从而实现更好的对齐;而在传统的RLHF中,输入只包含提示词和模型响应。

  • 在推理阶段,模型学会了先生成CoT token(可能需要长达30秒的时间),然后才开始生成最终响应。这就是模型如何花更多时间去思考的方式。

在报告列出的贡献者中,有两个人值得关注:

  • Ilya Sutskever,基于人类反馈的强化学习(RLHF)的发明者,出现他的名字意味训练o1模型时仍然用到了RLHF。

  • Jason Wei,著名的思维链论文的作者。他去年离开Google Brain加入了OpenAI。他的出现意味着CoT现在是RLHF对齐过程的重要组成部分。

不过,有很多重要的技术细节OpenAI并没有透露,比如奖励模型是如何训练的,如何获取人类对思考过程的偏好等等。

陶哲轩vs

免责声明:动画仅代表教授的合理推测,并不保证准确性

团队分享庆功视频,分享啊哈时刻

关于研究中取得重要突破的瞬间,在下面这个视频中,给了我们更多线索。

在发布o1模型后,团队发布了背后团队一起制作的视频。

在视频中,有人表示,自己觉得研究中最酷的就是那个啊哈时刻了。

在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。

所以,团队成员们分别经历了怎样的啊哈时刻呢?

有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。

就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。

还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。

对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。

这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。

这一位研究者说,自己一直在努力提升模型解决数学问题的能力。

让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。

然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。

而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。

他惊叹道:我们终于做出了不一样的东西!

这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。

Open o1团队开放团队问答,直面质疑

大家对o1模型的细节都有诸多疑问,因此,OpenAI o1团队也表示,将在X上组织一个AMA(Ask Me Anything)的活动,通过下方评论和用户互动。

陶哲轩竞赛

网友们非常踊跃,提出了诸多关键细节问题。

比如,有没有办法强迫模型,让它思考的时间长一点?

高智商陶哲轩

陶哲轩2020

团队的回答是:目前还没有这个选项,但会考虑改进,让用户更好地控制模型思考的时间。

陶哲轩智商是后天培养的吗

有人向Jason Wei提问道:在o1范式下见过什么逆缩放示例,看到模型变得更差?此外,他还质疑目前的基准测试排名缺乏足够的证据。

陶哲轩智商230怎么来的

Jason Wei回答说,自己并不知道,相信其他人见过。在某些类型的提示下,OpenAI o1-preview似乎并不比GPT-4o好多少,甚至还稍差一些。

而对于LLM排行榜如何公平比较的问题,Jason Wei表示自己也不知道。但他可以肯定:无论怎样努力地提示GPT-4o,都不可能让它获得IOI金牌。

陶哲轩智力

还有人提出了一个很多人都感到困惑的问题:o1究竟是不是一个在幕后运行CoT,然后提供答案或模型的系统呢?它是否使用了特殊token进行推理,在输出时隐藏了这些token?

陶哲轩智商是后天培养的吗

Noam Brown回答说,自己不会说o1是一个系统,它是一个模型,但与之前的模型不同。这个回答,看起来有点语焉不详。

陶哲轩智商是后天培养的吗

还有人采访道:o1表现出的最令人深刻的一点是什么?

陶哲轩智力

Noam Brown回答说,自己给模型下指令让它自己回答这个问题。

在CoT中,模型开始自己给自己出难题测试自己,来确定自己的能力水平。一个模型会这么做,就足够让人印象深刻的了。

高智商陶哲轩

Hyung Won Chung则表示,模型对哲学问题的思考过程颇为引人入胜。比如,生命是什么?

高智商陶哲轩

活动结束后,大VTibor Blaho专门写了一篇总结,对于团队的回答,做出了简明扼要的概括——

陶哲轩的智商230可信吗

模型名称和推理范式

  • OpenAI o1的命名代表了AI能力的新水平;计数器重置为1

  • Preview表示这是完整模型的早期版本

  • Mini意味着这是o1模型的较小版本,针对速度进行了优化

  • o代表OpenAI

  • o1不是一个系统;它是一个经过训练的模型,在返回最终答案之前生成长思维链

  • o1的图标象征性地表示为一个具有非凡能力的外星生命

o1模型的规模和性能

  • o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户

  • o1-preview是o1模型的早期检查点,既不大也不小

  • o1-mini在STEM任务中表现更好,但世界知识有限

  • 相比o1-preview,o1-mini在某些任务中表现出色,尤其是与代码相关的

  • o1的输入token计算方式与GPT-4o相同,使用相同的分词器(tokenizer)

  • o1-mini能够探索比o1-preview更多的思维链

输入token上下文和模型能力

  • o1模型即将支持更大的输入上下文

  • o1模型可以处理更长、更开放式的任务,与GPT-4o相比,减少了对输入分块的需求

  • o1可以在提供答案之前生成长思维链,这与之前的模型不同

  • 目前还没有办法在思维链推理过程中暂停以添加更多上下文,但正在为未来的模型探索这一功能

工具、功能和即将推出的特性

  • o1-preview目前还不能使用工具,但计划支持函数调用、代码解释器和浏览功能

  • 工具支持、结构化输出和系统提示将在未来更新中添加

  • 用户可能会在未来版本中获得对思考时间和token限制的控制权

  • 计划在API中启用流式处理并考虑推理进度

  • 多模态能力已内置于o1中,可以在MMMU等任务中实现SOTA的性能

思维链(CoT)推理

  • o1会在推理过程中生成隐藏的思维链

  • 没有计划向API用户或ChatGPT透露思维链token

  • 思维链token被总结,但不保证忠实于实际推理过程

  • 提示词中的指令可以影响模型如何思考问题

  • 强化学习(RL)被用来改善o1中的思维链,仅依靠提示的GPT-4o在性能上无法匹敌

  • 思考阶段看起来较慢是因为它总结了思考过程,而答案的生成通常更快

API和使用限制

  • o1-mini对ChatGPT Plus用户有每周50次提示的限制

  • 在ChatGPT中,所有提示词的计数是相同的

  • 随着时间的推移,将推出更多API访问层级和更高的使用限制

  • API中的提示缓存是一个很受欢迎的需求,但目前还没有时间表

定价、微调和扩展

  • o1模型的定价预计将遵循每1-2年降价的趋势

  • 一旦使用限制提高,将支持批量API定价

  • 微调在路线图上,但目前还没有时间表

  • o1的扩展受到研究和工程人才的限制

  • 推理计算的新扩展范式可能会为未来几代模型带来显著收益

  • 反向扩展目前还不显著,但个人写作提示显示o1-preview的表现仅略优于GPT-4o(甚至略差)

模型开发和研究洞察

  • o1使用强化学习进行训练从而实现推理能力

  • o1在诗歌等横向任务中展现出了创造性思维和强大的性能

  • o1的哲学推理和泛化能力,如破译密码,令人印象深刻

  • 研究人员使用o1创建了一个GitHub机器人,可以ping正确的CODEOWNERS进行审核

  • 在内部测试中,o1通过自问难题来衡量其能力

  • 正在添加广泛的世界领域知识,并将在未来版本中改进

  • 计划在o1-mini的未来迭代中使用更新的数据(目前为2023年10月)

提示技巧和最佳实践

  • o1受益于提供边缘案例或推理风格的提示

  • 与早期模型相比,o1对提示中的推理线索更敏感

  • 在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的块会对推理产生负面影响

一般反馈和未来改进

  • 由于还处在早期测试阶段,o1-preview的使用限制较低,但之后会有所增加

  • 正在积极改进延迟和推理时间

卓越的模型能力

  • o1能够思考生命是什么?这类哲学问题

  • 研究人员发现o1在处理复杂任务和从有限指令中泛化的能力令人印象深刻

  • o1的创造性推理能力,如自问自答以衡量其能力,展示了其高水平的问题解决能力

意昂机电股票纠纷

陶哲轩的智商230可信吗

参考资料:

https://mathstodon.xyz/@tao/109945628011027107

https://twitter-thread.com/t/1834686946846597281

https://x.com/ProfTomYeh/status/1834617696215806285

https://x.com/markchen90/status/1834623248610521523


返回网站首页

本文评论
美团外卖会员、神券合并,已削减93%营销类弹窗消息_「美团外卖会员打折卷」
7月25日消息,美团外卖宣布将于8月1日正式将平台“会员”、“神券”两大营销体系合并升级为“神会员”。同时美团外卖还将进一步削减弹窗、push等APP营销类消息推送,减少对用户...
日期:07-25
手指被鳄龟咬流血了怎么办「男子手指被鳄龟咬住痛哭一个多小时 消防用白酒解围」
1月11日,广东佛山顺德区发生一起惊险事件。一名男子试图从网兜中取出鳄龟时,不慎被其死死咬住手指。由于疼痛剧烈,男子痛哭并尝试自救,包括将鳄龟放入水池和使用钳子等工具,但都...
日期:01-12
山东能源携手华为发布全球首个矿山领域商用人工智能大模型「华为 山东能源」
通信世界网消息(CWW)7月18日,山东能源集团(下称“山东能源”)、华为、云鼎科技联手发布全球首个商用于能源行业的AI大模型——盘古矿山大模型。这将解决人工智能在矿山领域落地难...
日期:07-18
网友晒图已有小米SU7车主跑滴滴接单:网友喊话雷军加快生产速度_小米8跑滴滴
快科技4月11日消息,有网友晒出了图片,显示已经有人开始使用小米SU7车辆在滴滴上接单了。据反馈,有网友已经在滴滴平台上成功打到了小米SU7车辆。从截图来看,这位司机已经完成了...
日期:04-11
Edge独占结束!微软确认BingChat将向第三方浏览器推出「微软bing浏览器下载」
快科技6月5日消息,此前,微软曾公布了基于人工智能模型的BingChat聊天机器人,获得了大量用户的好评。但在很长一段时间内,用户都只能在Edge浏览器中,才能够使用BingChat,这一导致了...
日期:06-06
国产大模型登陆国产系统!百度文心一言上架统信应用商店_百度文心官网
快科技5月28日消息,统信UOS官方宣布,由百度研发的人工智能大语言模型产品文心一言正式上架统信应用商店。用户可通过统信应用商店一键下载、安装并使用文心一言。统信表示,文心...
日期:05-28
微软承认三星Link to Windows要比Your Phone更好用
  在Galaxy Note 10系列的Unpacked发布会上,三星宣布在多个领域深化和微软之间的合作。而其中之一就是新旗舰中会集成微软的Your Phone应用程序,以便于Note 10用户和Window...
日期:03-02
赛力斯:2022年预计实现营业收入 335 亿元到 350 亿元_赛力斯2020年销量
1 月 30 日讯:赛力斯发布 2022 年度业绩预告称, 2022 年预计实现营业收入 335 亿元到 350 亿元,同比上升 100.38%和 109.36%。预计 2022 年实现归属于母公司所有者的净利润为-...
日期:01-30
lols10中韩对抗赛「中韩对战今晚开打!《英雄联盟》S13总决赛BLG对战T1:八强争夺」
快科技10月28日消息,《英雄联盟》S13全球总决赛瑞士轮已经接近尾声,昨天LNG 2-1 KT,成功晋级八强。c919飞机何时交付海信电视能刷鸿蒙系统吗河南救援进展今晚18:00还将上演一场...
日期:10-28
外屏交互再革新!OPPO Find N3 Flip高能来袭,瞄准小折叠屏标杆体验
(原标题:外屏交互再革新!OPPO Find N3 Flip高能来袭,瞄准小折叠屏标杆体验) 8月28日,OPPO官方微博再次预热即将发布的Find N3 Fli...
日期:08-28
或为“宿舍神器”:Steam新功能允许局域网设备互传游戏
对于不少学生来说,向室友推荐游戏除了这游戏咋得买啊”之外,最大的阻碍或许就是这游戏太大了”,而近日Steam投入测试的一项功能,或许能够解决这个问题。苹果磁吸充电宝第二代近...
日期:11-01
15被宝马车主抱怨NFC芯片失效 iPhone_宝马nfc怎么和手机配对
来源:中关村在线谷歌为其员工投入很多,但还是不足以留住某些优秀员工近期美股上市的中国公司红米note10pro支持18w快充吗近日,一些宝马车主在使用车载无线充电板给iPhone 15充...
日期:10-02
吉利2020年新能源汽车销量「吉利汽车2023年销量总目标165万辆 新能源车销量力争实现翻番增长」
1月28日消息,吉利汽车集团CEO 淦家阅今日发布了新春寄语,为2023年吉利汽车发展定下总基调:速度、挑战极限,无限想象空间。iPad mini5屏幕尺寸赛龙舟 奥运会中美科技巨头对比淦家...
日期:01-28
小鹏汇天获1.5亿美元B1轮融资 计划四季度启动“陆地航母”预售_小鹏汇天估值
8月5日 消息:今日,小鹏汇天宣布,获1.5亿美元B1轮融资,同时启动B2轮融资。此轮融资将确保小鹏汇天飞行汽车研发规模量产和商业化进程的顺利实现。激光中国芯tid2022质量竞争力大...
日期:08-05
吴欣鸿创办美图公司的经历给我们带来了哪些启示?「对话吴欣鸿:美图AI首先追求帮用户赚到钱,应用窗口期就2年」
声明:本文来自于微信公众号 量子位 | QbitAI,作者:雷刚,授权转载发布。在生成式AI浪潮中,场景玩家是易于忽视的群体,但往往又是低调中率先吃到红利的那一个。在海外,不论微软还是...
日期:08-06
特斯拉Model Y上月在欧洲新注册近3万辆 成最畅销车型「特斯拉model y十万辆」
10月31日消息,据国外媒体报道,随着产量的提升,特斯拉2019年3月推出,次年一季度开始交付的Model Y,上市之后很快就在部分市场取代更早推出的Model 3,成为了最畅销的电动汽车。ibm7n...
日期:11-05
小米浙江周克出席2023工业文化发展大会 介绍小米高端化理念和路径
12 月 26 日,由工业和信息化部支持,工业和信息化部工业文化发展中心联合宁波市主办的“ 2023 工业文化发展大会”(以下简称“大会”)开幕,大会围绕我国工业文化创新推动新型工...
日期:01-05
14900K+RTX4080S打造的高端海景房主机装机配置方案
终于告别了癸卯年,迎来了甲辰年,所谓新年新气象,那就装一台新机犒赏一下自己吧。其实这台机子早在年前就准备好配件了,然后大年初三开始动工折腾。还记得当时连续大吃大喝了好几...
日期:04-11
奇瑞宣布小蚂蚁/QQ冰淇淋车型正式降价:最高降幅8000元_奇瑞小蚂蚁宣传片
快科技12月28日消息,奇瑞新能源官宣:2023年12月29日零时起,旗下的QQ冰淇淋、小蚂蚁两款车型将正式官降。蔚来安全事件其中,QQ冰淇淋共有4款配置车型享受调价福利,调整幅度均为6...
日期:12-29
“淘宝围城”事件呼唤电子商务行业规则
  僵持一周的淘宝商城新规事件终于有了进展。尽管马云一再强调“绝不改变原则”,但阿里巴巴终究拿出18亿元扶持卖家,并对新规执行办法作了调整。网络围攻也暂时偃旗息鼓。...
日期:07-24