您的位置:首页 > 互联网

OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍

发布时间:2024-12-23 10:04:46  来源:互联网     背景:

声明:本文来自于微信公众号 数字生命卡兹克,作者:数字生命卡兹克,授权转载发布。

今天凌晨2点,OpenAI的12天直播,终于来到了最终章。

奥特曼,也在一片圣诞的气息中终于回归。

为大家带来了最后的压轴大戏。

OpenAI o3。

又一次超群,又一次把模型的能力,推到了新的高度。

也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。

我也想起了OpenAI研究员在发布o1之前的那句话:

“我们通往AGI的路上,已经没有任何阻碍了”

之所以OpenAI直接发布o3没有o2,原因也挺简单的。

因为跟英国电信服务提供商O2可能存在版权或商标冲突,所以直接跳过了。。。

直接到o3。

而OpenAI直播一完,X上基本就沸腾了。

o3的能力,对现在所有模型,几乎都直接是降维打击。

看下o3的能力吧。

一些粗的评测集简单过一下。

左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3是否能像一流的软件工程师一样写出完美的代码。

o3的成绩:71.7%,比o1还强了不少。

右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。

o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。

o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。

数学竞赛AIEM2024和博士级科学考试GPQA Diamond。

AIEM2024接近满分,如果我没记错的话,这应该也是第一次AI能达到有AIEM接近满分的水平。

博士级科学考试有进化,但没数学和编程进化的这么猛。

接下来的这个数学基准比较有趣一点。

FrontierMath,Epoch AI 开发的一个数学基准测试,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。

而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。

苹果芯片架构设计

之前GPT-4和 Gemini1.5Pro这种模型去评估的时候,成功功率不足2%,与其他传统数学基准(如 GSM-8K 和 MATH)中超过90%的成功率形成鲜明对比。

而这一次,o3直接达到了25.2。

当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了。。。

就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。

两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行,留下一地的卧槽。

这还比个鬼。

然后,就是我觉得,整个基准里,最有趣的一个基准了:

ARC-AGI。

先说说这是个啥玩意。

ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。

主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。

所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。

可以简单的理解成,找规律。

大概就是这样的。

非常的难且抽象。

过去几代模型的评分在此:

* GPT-2(2019):0%

* GPT-3(2020):0%

* GPT-4(2023):2%

* GPT-4o (2024):5%

* o1-preview (2024):21%

* o1(2024):32%

* o1Pro (2024): ~50%

但是今天,o3的分数,达到了恐怖的87.5%。

从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。

而对应的,人类的阈值分数,是85%。

我们通往AGI的路上,已经没有任何阻碍了。

不过o3强归强,但是又是一个期货,OpenAI目前只对红队开放,如果是巨佬的话,可以去申请试试。

网址在此:https://openai.com/index/early-access-for-safety-testing/

目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。

目前o3-mimi,预估在1月底可以对外开放,但是感觉到时候,肯定又是pro会员专属的模型了。

我越来越期待,2025年AI行业的进化了。

推理模型、Agent、AI硬件、世界模型。

每一个都是比这个中间态的2024,都更让人兴奋的东西。

2025,必是AI行业,真正的星辰大海。

我们也在最后,回顾一下这12天的直播吧。

Day1:满血o1上线,ChatGPT Pro会员上线,o1pro推出。

Day2:基于o1的强化微调。

Day3:Sora正式发布。

Day4:ChatGPT Canvas全员开放以及小功能更新。

Day5:给苹果站台,宣传苹果全系接入GPT。

Day6:4o的实时视频理解上线。

Day7:ChatGPT发布新建文件夹“项目”功能。

Day8:ChatGPT Search全量开放,搜索体验大幅优化。

Day9:发布了o1的API、更新了实时语音的API、发布了偏好微调能力(PFT)。

Day10:物理意义上的可以给ChatGPT打电话了。

Day11:炒冷饭,ChatGPT 桌面版能读到别的应用。

Day12:OpenAI o3正式发布。

这12天,稍微有点惊喜的日子大概只有2、3天,其他都是垃圾时间。

还好,今天的大货,补上了之前的阴霾。

最后,还是忍不住感叹一声。

这12天,像一场漫长的马拉松。

我们经历了深夜中数不胜数的垃圾时间。

却也迎来了最后的高光时刻。

这感觉。

还挺AI的。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克


返回网站首页

本文评论
征途赛道初步完成小程序游戏布局 巨人网络2023年净利润10.86亿元
【】4月30日消息,巨人网络发布2023年年度报告及2024年一季度报告。报告显示,2023年巨人网络实现营业收入29.24亿元,同比增长43.50%;实现归属于上市公司股东的净利润10.86亿元,同...
日期:04-30
小鹏p7电池续航测试「小鹏P7+每度电可跑10公里  “堆电池”是技术水平最低的手段」
【】10月30日消息,在“小鹏P7+三电技术沟通会”上,小鹏汽车动力总成中心负责人顾捷先生出席沟通会,向在场媒体介绍了小鹏P7+在纯电能耗管理方面的优势,并强调小鹏汽车始终认为:能...
日期:10-30
比亚迪海狮海豹「高阶智驾逐渐下放:比亚迪全新海狮07 EV官宣搭载“天神之眼”」
快科技1月20日消息,高阶智能驾驶越发重要,已经成为了核心竞争力。雷军评论小米6据比亚迪汽车官方,海洋网全新中型都市智电 SUV”海狮07 EV将搭载天神之眼”高阶智驾,并将支持高...
日期:01-20
特斯拉 储能业务「明年一季度实现量产,特斯拉上海储能超级工厂获施工许可」
5 月 13 日消息,从“上海临港”微信公众号获悉,特斯拉上海储能超级工厂建设项目已完成施工许可证核发。这是特斯拉在美国本土以外的首个储能超级工厂项目,工厂计划于今年 5 月...
日期:05-14
荣耀magic官方发布会「荣耀Magic 6系列及Magic 8.0新品发布会官宣:1月10日-11日举办」
快科技12月26日消息,今天,荣耀官方宣布,荣耀Magic 6系列及Magic 8.0新品发布会将于1月10日-11日举行。根据官方发布的日程来看,此次发布会的内容相当丰富,估计要来一次技术大爆发...
日期:12-27
小i机器人ceo变动「小i机器人将于6月29日发布大模型“小i大模型”」
6月26日 消息:小 i 机器人宣布将于6月29日推出“小 i 大模型”,并通过产品演示、讲解和体验,呈现小 i 大模型的智能与特性。据悉,小 i 机器人成立于2001年,是一家人工智能技术公...
日期:06-26
升级IP58防尘防水 「三星Galaxy」-Z Fold5/Z Flip5防护再升级
去年8月,三星在国内发布了第四代折叠屏手机——三星Galaxy Z Fold4和三星Galaxy Z Flip4,两款机型凭借各自的特点吸引了不同需求用户的目光。而这段时间以来,新一代的三星Galax...
日期:09-12
业务重心转向技术授权 AR,初创企业 Magic Leap 裁撤销售与市场团队
IT之家 7 月 21 日消息,据彭博社报道,多位消息人士透露 AR 初创公司 Magic Leap 已经裁撤了约 75 人的整个销售与市场团队,该公司目前计划将业务重点转向授权其用于 AR 头显的...
日期:07-21
“绝世好男人”VS“旋风孝子” 京东国际告诉你这届消费者最爱买什么
  最舍得海淘花钱的80后和最热衷跨国买买买的90后已经成为中国进口商品消费的核心主力;来自希腊、西班牙、阿联酋等小众国家的商品已经开始撬动美国、日本、韩国的蛋糕;...
日期:11-23
appleintelligenceApple,Intelligence摸着安卓手机过河 AI洪流之下_苹果借鉴安卓
来源:中关村在线苹果AI来了,官方宣称它是为大众设计,却没能完全开放给所有iPhone用户。广日股份最新分析6月11日,苹果举行WWDC24主题演讲,除了一些常规的系统更新,苹果更多地将重...
日期:06-14
2021年台湾机房正在加速新建启用(台湾的机房)
  据报道,台湾运营商和台湾机房品牌正在陆续新建数据中心,进一步加强本地网络架构以及全球互联的能力。   在上月,是方电讯正式对外宣布拟建新台湾IDC机房,占地5000坪,放置1...
日期:06-05
百度新首页:互联网开发者的新战场(百度是拥有强大互联网基础的)
  2011年9月2日,北京国家会议中心百度世界大会的主会场,近六千名互联网开发者及站长、上千名网络服务商齐聚一堂。   会上,百度向外界发布了全新的百度首页,这是百度首页历...
日期:07-22
“民调”投票之前,马斯克就已主动物色推特CEO“继承者”_马斯克 推特ceo
  讯 北京时间12月21日早间消息,据报道,知情人士透露,在推特老板兼CEO埃隆·马斯克(Elon Musk)发起“是否该卸任推特CEO”的投票之前,他就已主动为该公司物色一名新CEO。三星 A5...
日期:12-21
这个全球巨头不行了?爱迪生、福特曾为它“带货”,历经8次转手
声明:本文来自微信公众号“天下网商”(ID:txws_txws),作者:刘雨锟,编辑:吴羚玮,授权转载发布。1933年,近代影响力最大的中文报纸《申报》上刊登出一条广告,在上海市民间掀起了一股...
日期:12-20
九号公司上半年营收43.8亿!电动两轮车卖超54万台
快科技8月24日消息,今日,九号公司发布2023年半年度报告,公司上半年实现营业收入43.8亿元,同比下滑9.13%;归母净利润为2.22亿元,同比下滑12.97%。特斯拉损失多少亿销量方面,自主品牌...
日期:08-24
八位堂手柄连安卓手机怎么样「萌新上市:八位堂 Micro 蓝牙手柄正式发布」
近日,集可爱、便携、多功能于一身的八位堂 Micro 蓝牙手柄正式发布,并已在各大电商平台八位堂旗舰店上架,日常价 149 元, 8 月 20 日及之前购买,享首 发价 119 元,感兴趣的朋友不...
日期:08-17
露营能干啥「露营的钱,不好赚了」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:李秋涵,授权转载发布。2023年,你还露营吗?将这个问题抛给这两年才接触露营的玩家,收到的回答能分为三类。一类真正入了...
日期:03-30
华为云与清华五道口金融学院合作,共同打造“数字中国”企业家课程
  5月16日,在“清华五道口全球金融论坛创新夜话”上,华为与清华五道口金融学院签署了《清华大学五道口金融学院与华为技术有限公司合作备忘录》,共同打造“数字中国”企业家...
日期:07-13
中国移动研究院与华为举行"数联网(DSSN)合作备忘录"签约仪式_中国移动研究院和中国移动总部待遇有差别吗
通信世界网消息(CWW)2024年9月25日,在国家游泳中心(水立方),中国移动研究院与华为举行了"数联网(DSSN)合作备忘录"签约仪式。双方旨在深入开展数联网(DSSN)关键技术的研发与实践,实现技...
日期:10-29
加入AI热潮,高通推出手机及PC芯片,以挑战苹果和英特尔
10月25日消息,美国当地时间周二,高通发布了两款新芯片,旨在智能手机和个人电脑(PC)上运行人工智能软件,包括引入了科技行业的大语言模型(LLM),而无需连接互联网。自从Stable Diffusio...
日期:10-25