您的位置:首页 > 互联网

OpenAI甩王炸!发布新模型o3,一夜再次改变世界!_oii3

发布时间:2024-12-21 11:25:39  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区 作者:AIGC开放社区,授权转载发布。

今天凌晨2点,OpenAI开启第12天技术直播,也是最后一天。不负众望终于整了个大的,发布全新预览版模型——o3。

根据发布的o3测试数据显示,美国AIME数学竞赛中达到了96.7分,大幅度超过了o1预览版的56.7和o1的83.3%,仅错了一道题相当于一名顶级数学家的水平。

而在ARCAGI的测试中,o3在低算力资源情况下实现了75.7%,而当增加计算资源后实现了87.5%,这也是首次有大模型超过了人类85%的水平,实现重大技术突破。

有意思的是,OpenAI直接跳过了o2发布了o3,主要原因是名字与英国著名电信公司o2发生了冲突无法使用,所以才直接来了个第三代~

o3主要测试数据

在软件风格基准测试中,由真实世界软件任务组成的3benchverified基准测试里,o3模型准确率达到71.7%,相比o1模型提升超过20%。

omy3

在竞赛代码领域,o3模型在CodeForces竞赛编码网站上表现卓越,达到了约2727的ELO分数,远超o1模型的1891分,甚至超越了OpenAI首席科学家Yakov的分数,接近公司内部顶尖编程高手的水平,这表明o3在处理复杂编程竞赛任务时具备出色的逻辑推理和算法实现能力。

在数学能力测试中,o3模型在Amy考试中的准确率高达96.7%,而o1模型为83.3%。在这个被视为美国数学奥林匹克预选考试的高难度测试中,o3模型通常仅错一题,表现十分出色。

在衡量模型在博士阶段科学问题处理能力的GPQADiamond基准测试中,o3模型取得了87.7%的准确率,比o1模型的78%提高了约10%,甚至超越了领域专家博士通常能达到的70%的水平,这表明o3模型在数学和科学领域的复杂问题处理上已接近甚至超越人类专家水平。

oja3

在ARCAGI基准测试中,o3模型取得了重大突破。在低计算条件下,o3模型在ARCAGI的半私有保留集上得分为75.7,这一成绩在符合计算要求的同时,成为了新的行业领先水平。

当进一步提升计算能力,让o3模型进行更长时间的思考时,其在同一隐藏保留集上的得分更是高达87.5%。这一成绩尤为重要,因为人类在该测试中的表现阈值约为85%,O3模型的得分超过了这一阈值,标志着人工智能在该领域取得了新的里程碑。

oii3

此前,ARCAGI版本一花费了五年时间,才使领先的前沿模型从0%提升到5%,而o3模型的出色表现无疑展示了OpenAI在人工智能技术研发上的巨大进步。

o3Mini版本

与o3模型相比,o3Mini模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。

在编码评估方面,o3Mini模型展现出了出色的性能提升。在CodeForces的评估中,随着思考时间的增加,o3Mini模型的表现不断提升,逐渐超越了o1Mini模型。

在中位思考时间下,o3Mini模型的性能甚至优于o1模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下,获得更高效的编程辅助,提高开发效率,降低开发成本。

ooa13

在数学能力测试中,o3Mini模型在2024年数据集上表现出色。o3Mini低模型的性能与o1Mini相当,而o3Mini中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时,o3Mini模型也能展现出一定的优势,实现了接近即时响应的效果。

此外,o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能,与O1模型相当。在实际应用中,o3Mini模型在大多数评估中实现了可比或更好的性能。

曝iphone 15 pro将搭载屏下摄像头

在现场演示中,o3Mini 模型的强大功能得到了直观展示。例如,在一项任务中,模型被要求使用Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后,模型成功启动了本地服务器,并生成了包含文本框的用户界面。

用户在文本框中输入编码请求后,模型能够迅速将请求发送至 API,并自动解决任务,生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但 o3Mini 模型在低推理努力模式下依然表现出了极快的处理效率。

目前,该模型还处于安全测试阶段,从今天开始o3Mini 模型率先开放给外部安全研究人员进行测试,随后 o3模型也将参与其中。研究人员可通过访问 OpenAI 的官方网站,填写申请表格参与测试。


返回网站首页

本文评论
Neuroid:输入文本提示就能快速创建复杂的AI 3D动画_ai可以制作3d动画吗
划重点:2020京东双十二瓜分一亿活动入口iPhoneX官方回应双胞胎1. iphone 5s上市埃隆马斯克 推特账号...
日期:01-08
超九成网友支持中秋申请世界非遗:我国传统节日 数千年历史_中秋节被评为国家级非物质遗产是哪一年?
马上要中秋节了,有不少网友表示,希望赶快申遗。近日,中国日报联合@京东超市 发起支持中秋”申报世界文化遗产的投票,在#你支持中秋申请世界非遗吗#的投票中,多数网友表示支持。腾...
日期:09-23
微软 Win11/Win10 新版 Outlook 应用曝光,全新设计与动画(win10如何安装outlook)
  8 月 9 日消息 适用于 Win11 和 Win10 的 Outlook 近日曝光,将于明年取代现有的 Outlook 应用,预计将在未来几周内推出公开预览版。   微软已经确认将在 Windows 上统...
日期:10-10
三星IT100参数「三星it100」
三星IT100是一款智能化移动设备,可以通过Wi-Fi与网络相连接,为用户提供更方便的使用体验。下面是详细介绍:硬件配置:三星IT100拥有一块6英寸大屏幕,分辨率为1280x720像素,显示色彩...
日期:05-31
因集成GPUs问题 W7 SP1内存检测较少
8月13日消息,据国外媒体报道,微软公司对Win7 Service Pack 1(SP1)系统的用户会碰到系统对RAM的检测不准确的问题做了确认,并透露Windows Server 2008 R2 SP1也有受到影响。 据...
日期:07-22
嗨学网解职业教育之“渴” 直面后疫情时代新挑战
  基于疫情“持久战”的判断,很多行业开始转战线上。一些“疫”后余生的教育培训机构大都表示再也回不到之前纯线下运营模式了,他们会继续保留线上教学。在线教育渐渐由“...
日期:09-13
私家车在公交车专用道行驶会扣几分「公交道私家车也能走了!公安部:6月1日起公交专道改革」
5月5日消息,据央广网”报道,公安部日前介绍,优化城市公交专用道管理改革措施将于今年6月1日起实施,该措施包括优化公交专用道专用时段,因地制宜允许部分车辆使用公交专用道等。苹...
日期:05-05
年仅30岁 德国知名健身网红拉丝哥离世:突发性动脉瘤破裂「拉斯视频」
7 月 4 日消息,本月初,一条不幸的消息传出,引起了世界各地健身爱好者的关注。据悉,德国著名网红健身博主“拉丝哥”(Joesthetics)猝死离世。lg g8曲面屏该博主活跃在YouTube和Inst...
日期:07-04
马斯克认怂「马斯克对公司的批评完全是错误的 OpenAI-CEO」
6月9日消息,OpenAI首席执行官萨姆·奥特曼(Sam Altman)最近接受采访时回应了埃隆·马斯克(Elon Musk)的批评,并称后者针对这家人工智能初创公司的评论完全是错误的。当地时间周三,...
日期:09-24
苹果美版1662是支持电信吗「iPhone 16 Pro 5G表现大增强:美版下载超400Mbps」
快科技9月12日消息,iPhone的信号和网速体验一直非常让用户苦恼,不过今年苹果带来了不小的改善。据测速平台Speedsmart的实测数据显示,iPhone 16 Pro在美国三大运营商网络下,5G下...
日期:09-12
紫光同芯总裁岳超:以科技引领未来,迈向世界一流集成电路设计企业
通信世界网消息(CWW)在科技飞速发展的时代,集成电路产业作为经济社会发展的基础性和先导性产业,其重要性日益凸显。近日,紫光同芯举办了首届合作伙伴大会,吸引了众多行业领导、合...
日期:08-23
吉利旗下英国厂商发布大型电动汽车全新平台,适用于多种车型_吉利将创立新纯电动车品牌
5月5日消息,周五,吉利旗下的伦敦电动汽车公司(LEVC)发布了全新的大型电动汽车平台——“空间定向架构”(SOA,Space Oriented Architecture),适用于客车和货车。这个平台是由中国、瑞...
日期:05-05
苹果降价快不快「跌落神坛的苹果,开始降价促销」
通信世界网消息(CWW)1月15日,苹果官网挂出了降价通知。全系列产品都出现了不同幅度的降价。华为mate50pro颜色哪个最好具体降价情况如下。iPhone:以符合条件的支付方式买 iPhone...
日期:01-15
小米13 Ultra新配色赤霞橙最美_小米13ultra最新消息
小米13 Ultra除了升级了拍照,还为喜欢时尚的用户带来了更加丰富的配色,三款新配色分别是星空蓝、银杏黄和赤霞橙。这三款新配色于5月6日上午10点在小米商城正式首售,价格为6499...
日期:05-07
300斤棕熊偷吃粮食被卡进塑料桶 网友:救援时人和熊都害怕极了_棕熊吃掉主人
7月8日消息,养过动物的朋友大概遇到过猫或者狗将头卡在罐头瓶里的情况,显得非常滑稽,但如果这个动物变成了棕熊,那就不只是滑稽了。近日在青海省杂多县昂赛乡年都村,一头棕熊觅食...
日期:07-08
马斯克被曝用微量K粉治疗抑郁症 自称使用抗抑郁药物让人变僵尸
6月28日消息,据《华尔街日报》报道,特斯拉兼SpaceX首席执行官埃隆·马斯克(Elon Musk)使用微量氯胺酮(俗称K粉)治疗抑郁症。此外,在参加派对时,他偶尔也会服用K粉用于寻求精神刺激...
日期:06-28
ios15颜色「苹果有望在秋季新增iPhone15青绿色和iPhone15Pro绯红色」
早在二月份,9to5Mac就报道称,苹果正计划推出一种新的深红色iPhone,作为今年的iPhone15Pro的新颜色。现在,消息人士还补充说,iPhone15和iPhone15Plus将提供新的绿色选项。诺基亚五...
日期:07-04
詹姆斯邦德同款!阿斯顿马丁DB12 “金手指"版上市:售价461万元_阿斯顿马丁dbs superleggera
快科技10月21日消息,阿斯顿马丁为纪念经典电影《007之金手指》上映60周年,推出了DB12 Goldfinger Edition(金手指特别版),全球限量发售60辆,售价为461.6007万元。DB12 Goldfinger...
日期:10-23
Redmi K70 Pro来了!卢伟冰:质感大升级 性价比肯定碾压友商_卢伟冰红米k30pro
快科技10月28日消息,小米集团卢伟冰表示,如果想入手更高性价比的骁龙8 Gen3性能手机,那就等等Redmi K70 Pro,性能会超越其他同档同期相同定位产品,质感更是大升级,性价比肯定碾...
日期:10-29
真我gt5g多少钱「240W快充!24GB 1TB真我GT5仅售3599元」
这款真我GT5 5G手机24GB 1TB 星雾绿洲 240W版拥有独特的外观设计和卓越的性能。其背部采用了标志性的觉醒光环系统Pro,支持多种功能,并具有优秀的画质表现。在性能上,它搭载了...
日期:11-16