您的位置:首页 > 互联网

GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o

发布时间:2024-09-15 03:19:14  来源:互联网     背景:

TechWeb 文/卞海川

毫无预热的情况下,Open AI于9月13日凌晨发布了o1系列的大模型,这是传闻中内部代号为“草莓”的项目,也是OpenAI首款具备复杂推理能力的大模型。

与其前代模型相比,新模型o1擅长通用复杂推理,在物理、信息学等领域表现优异,OpenAI CEO奥特曼称它是一种新范式的开始:可以进行通用复杂推理的人工智能。

wii 玩 ngc

OpenAI把新的模型发布称为预览版,强调o1系列仍处于早期阶段。

作为早期模型,它尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像。

虽然处于开发初期,但o1系列在竞赛数学、编码、科学等类目都有非常不错的表现,其中竞赛数学类甚至大幅领先GPT-4o。

你可以简单理解为,o1系列模型是一个极度“偏科”的理工型人才。

根据官方的解释,o1系列模型采取“思维链”的模式进行训练,以此提升大模型的逻辑推理能力。

所以在回答问题之前,它会花更长时间思考,也就是说,o1系列并不追求信息输出反馈的速度,而是更在乎推理结果的准确性。

为了更好的了解o1系列的能力,我们对它进行了一些简单的测试。

我们首先用一些之前大模型都爱翻车的简单题目来测试一下o1系列的推理能力。

“单词strawberry里面到底有几个r”

不出意外,GPT-4o依旧翻车,给出的答案是错误的。

让我们惊喜的是,GPT-o1的回答就非常准确,

“9.11和9.8谁更大?”

GPT-4o在1秒内回答,但是给出了错误答案。

难倒了一众大模型的小数位比大小问题,o1系列没有翻车,在等待了10多秒以后,o1给出的答案是正确的。

我们再来一些正常的推理题,选择经典的小学奥数水平“空瓶换汽水”问题。

原题如下:“1元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有20元钱,最多可以喝到几瓶汽水?”

很遗憾,在第一次回答的结果上,4o和o1系列都给出了错误的39瓶答案。

但区别在于,如果我告诉它正确的答案,o1系列会纠正自己的错误,给出新的解题思路,但GPT-4o依旧觉得自己的回答是正确的。

接下来我们把难度升级,测试一下竞赛类题目o1系列模型的能力。

据 OpenAI 介绍,在测试中,o1系列模型在物理、化学和生物等具有挑战性的基准任务上的表现达到了博士生的水平。

这一模型在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而 o1 模型的得分率则高达 83%。

o1系列模型的编码能力也在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 个百分点。

Open AI CEO奥特曼在刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。也就是说,它已经超过了大多数人类数学天才!

Shark鲨客蒸汽拖把

如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。

我们选取了AIME 2023的真题,该数学竞赛的题目难度比IMO稍低,但仍处于数学竞赛题目难度前列。

经过测试,o1和4o给出了两个完全不一样的答案,虽然解题思路步骤我们没看懂,但从官方给出的答案来看,o1的结果是正确的。

最后,我们来测试一下o1系列代码能力,以经典的俄罗斯方块小游戏作为考题。

我们给o1模型提了要求,然后将所有代码复制运行,一字未改,成功实现俄罗斯方块小游戏。

快手抖音一个老板吗

写在最后

经过我们的简单测试,o1系列模型的最大亮点是显著增加了逻辑推理能力,以前GPT-4o回答不上来的问题,o1系列可以给出正确的解题思路,它已经不仅仅是简单的生成答案,而是能够提前规划、思考,更接近人类的思维过程。尤其是在数学领域表现突出。

不过,它在特定领域的精确度与应对复杂对话的表现上仍有待进一步优化,在数据分析、编程和数学等重推理的类别中,人们更倾向于选择o1-preview。但在一些自然语言任务中,GPT-4o更胜一筹。


返回网站首页

本文评论
曝iPhone 15 Pro钛合金中框采用中国技术 门槛非常高_苹果钛合金
快科技9月18日消息,在今年的iPhone 15 Pro系列中,苹果首次采用了全新航空级钛金属边框,相较于此前的不锈钢材质,钛金属的重量要轻很多,成为苹果迄今为止最轻巧的Pro机型。苹果称,...
日期:09-18
丰田“加价神车”半年销量暴跌30%!雷克萨斯ES又全面涨价_雷克萨斯es涨价了
作为丰田旗下的豪华汽车品牌,雷克萨斯一直的销量都很不错,特别是雷克萨斯ES,可以说是占据了雷克萨斯的半壁江山。即便是被网友疯狂吐槽“同级别动力最弱”,但也丝毫不影响该车的...
日期:08-17
辛巴过生日请的明星「王思聪给网红辛巴录生日祝福视频 网友:全网第一个」
快科技8月16日消息,日前,网红辛巴(辛有志)请王思聪为自己录制818生日祝福的视频引起网友讨论。视频中,王思聪身穿灰色T恤,戴着一副墨镜,对着镜头说:“辛巴,祝818生日快乐”。辛巴在该...
日期:08-17
真是UFO?济南6天拍到3次不明飞行物:将开展模拟实验「济南惊现不明物体」
9月9日消息,很多人对不明飞行物UFO和外星人非常神往,总觉得它们应该已经或者正在造访地球,这不,济南七星天文台在6天内3次拍到了不明飞行物,由于这种情况非常罕见,于是有关地外生...
日期:09-09
比尔盖茨回复黄晓明:平等问题是全球性挑战_比尔盖茨承认搞砸婚姻
近日,盖茨基金会发布的视频中,黄晓明向比尔·盖茨提问有关不平等的问题,认为这阻碍了到2030年消灭艾滋病的目标。如何确保每个人都能平等地获得科技进步的成果?安卓手机销量排...
日期:06-16
Meta宣布元宇宙软件的一位重要高管将离开公司「meta 元」
Meta发言人于当地时间周五表示,公司Horizon社交媒体虚拟现实软件部门副总裁Vivek Sharma将离职。据悉,Sharma在过去六年时间里一直在Facebook母公司Meta工作并在市场和游戏部...
日期:09-12
分期乐商城:iPhone 11系列成“史上最畅销”,较前代机型增600%_分期乐买iPhone
  9月24日消息 早前苹果正式发布了全新iPhone 11系列三款机型,其中苹果iPhone 11也由于自身极高的性价比引起了广泛关注。据分期乐商城数据显示,iPhone 11系列首发日销售量...
日期:07-21
惠普打印机墨盒型号_惠普打印机墨盒型号在哪里看图片
惠普打印机是当今市场上非常流行和广泛使用的打印机品牌之一。根据打印机的不同型号,其使用的墨盒型号也会有所不同。以下是对的搜集和整理。惠普打印机分为经济型、办公型和...
日期:05-29
哈啰APP日活破1500万创历史新高:新业务收入首超共享单车_哈啰出行盈利
10月9日,哈啰宣布,在9月30日,哈啰APP的日活突破1500万,平台GTV也实现了超2亿的历史新高。台积电宣布芯片涨价得益于假期前夕出行需求的激增,哈啰共享两轮业务在9月30日达到全年GT...
日期:10-18
百度输入法如何设置短语_轻松玩转百度输入法短语功能 我的句子我做主
  2月24日消息,“最懂中文输入”的百度输入法不仅为用户提供了海量词库、智能组词、流畅长句输入以及强大的云输入功能,近日更是体贴用户,特推出预置了实用又个性的表情符及...
日期:07-26
沪上阿姨回应免单券回收争议:小程序网络波动导致 免单券已补发
11月17日消息,据沪上阿姨官微消息,针对近期网友反映的免单券被回收问题,沪上阿姨表示,由于中午小程序系统网络波动,免单券显示出现异常,目前问题已修复并补发。沪上阿姨官微还表示...
日期:11-18
香港恒生指数开盘跌1% 汽车股涨跌不一「香港恒生股票价格指数」
  财联社10月3日电,香港恒生指数开盘跌1%,恒生科技指数跌0.78%,汽车股涨跌不一,吉利汽车跌近3%,蔚来涨超1%。地产股上涨,碧桂园涨近5%,绿城中国涨超4%。小米集团跌超2%,哔哩哔哩跌...
日期:10-05
饿了么和什么合并了「饿了么到店业务将与高德合并」
2月20日消息,据36氪独家报道,阿里巴巴生活服务板块下饿了么到店业务(原“口碑”)将与高德合并,原到店业务负责人张亮将由向阿里本地生活服务公司CEO俞永福汇报,改为向高德CEO刘振...
日期:02-22
不满足于人机对话!微软被曝使用ChatGPT训练机器人为人类日常生活服务
2月24日消息,微软与人工智能聊天工具ChatGPT背后开发商OpenAI的合作已经在科技行业掀起追求人工智能的热潮。据外媒报道,微软一个研究团队正在进一步推动人工智能技术,尝试让Ch...
日期:02-25
三星3nm量产_三星第一次公开2nm:2025年量产
  在代工市场上,唯一可以和台积电抗衡的,就是三星了(Intel高调杀入但还需进一步观察),双方在先进工艺进展上也是互不相让,7nm、5nm、3nm、2nm你追我赶。   在最新举办的三...
日期:05-03
因出租车短缺,俄罗斯巨头 Yandex 请求北汽、奇瑞等车企向其供车「而经过7月26日的再次收购,北汽将成为神州租车最大」
IT之家9月3日消息,据俄罗斯卫星通讯社,Yandex请求中国汽车制造商北汽集团和奇瑞以及俄罗斯本田车企伏尔加、白俄罗斯车企Unison为与Yandex.Taxi合作的租赁公司提供车辆。租约...
日期:09-04
刘润对话有赞白鸦:企业复苏与增长的生机在哪里?
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:谢萌,授权转载发布。先从几组数据看起:- 在近日的微信公开课PRO上,微信提到在过去一年,小程序整体交易规模同比增长了40%,...
日期:04-01
stable diffusion服装关键词怎么写?50个优秀stable diffusion服装提示案例
人工智能图像生成技术正在彻底改变娱乐行业角色设计的创作过程。从视频游戏到电影,AI 生成的图像为设计师在创建角色时提供了前所未有的控制和细节水平。随着stable diffusio...
日期:04-13
端午节卖粽叶_网友一周淘走80万个粽子  端午粽叶也受热捧
三大中国传统节日之一的端午节马上就要到了,粽子一时间成为热门食品。与往年不同的是,以方便著称的网购,已经成了人们购买粽子的热门渠道。 <?xml:namespace prefix = o ns =...
日期:07-29
爱立信与中国移动携手在5G商用网络中完成与多款商用RedCap芯片模组的互操作验证
通信世界网消息(CWW)近期,爱立信携手中国移动,与全球2家主要RedCap芯片厂商和3家模组厂商提前完成了多款RedCap芯片和模组的端网互操作测试。此次端网测试在中国移动湖南岳阳5G...
日期:11-30