您的位置:首页 > 互联网

o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低_谷歌 nosandbox

发布时间:2024-12-24 10:21:58  来源:互联网     背景:

声明:本文来自微信公众号“量子位”,作者:小交,授权转载发布。

o1/o3带火的推理计算Scaling,原来谷歌早在今年8月就曾探讨过。

当时,来自斯坦福、牛津以及谷歌DeepMind的团队提出通过重复采样来扩展推理计算量——

结果在编码任务中将性能最多提高40%。

他们发现小模型通过生成多种答案/样本,其任务表现可能比一些大型模型单次尝试还要好。

比如,DeepSeek-Coder通过重复采集5个样本,性能优于GPT-4o,而成本却仅为后者的三分之一。

这篇论文讲了什么?

这篇论文取名Monkey,灵感来自于无限猴子定理。

一只猴子在打字机键盘上随机敲击键盘无限长的时间,几乎肯定会打出任何给定的文本。

李彦宏战略合作伙伴

谷歌3pixel

而在大模型的语境下,只要采的样够多,那么大模型总能找到正确解。

本文遵循的重复采样程序,首先通过大模型中采样,为给定的问题生成许多候选解。

其次再选择特定领域的验证器Verifier(比如代码的unittests),从生成的样本中选择最终答案。

重复采样的有效性取决于两个关键特性。

  • 覆盖率,随着样本数量的增加,我们可以利用生成的任何样本解决多少问题。

  • 精确度,在从生成的样本集合中选择最终答案的情况下,我们能否识别出正确的样本?

他们关注的是yes or no的任务,在这些任务中,答案可以直接被打分为对或者错,主要指标是成功率——即能够解决问题的比例。

通过重复采样,考虑这样一种设置,即模型在尝试解决问题时可以生成许多候选解。

因此,成功率既受到为许多问题生成正确样本的能力(即覆盖率)的影响,也受到识别这些正确样本的能力(即精确度)的影响。

基于此,确定了五种数学和编程任务:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

结果显示,在多个任务和模型中,覆盖率随样本数量增加而提升,在某些情况下,重复采样可使较弱模型超越单样本性能更好的强模型,且成本效益更高

比如在使用Gemma-2B解决CodeContests编程问题时。随着样本数量的增加,覆盖率提高了300倍以上,从一次尝试的0.02%提高到10000次尝试的7.1%。解决来自GSM8K和MATH的数学单词问题时,Llama-3模型的覆盖率在10,000个样本的情况下增长到95%以上。

有趣的是,log(覆盖率)与样本数之间的关系往往遵循近似的幂律。

谷歌ouo

在Llama-3和Gemma模型中,可以观察到覆盖率与样本数呈近似对数线性增长,超过几个数量级。

在不同参数量、不同模型以及后训练水平(基础模型和微调模型)下,都显示通过重复采样Scaling推理时间计算,覆盖率都有一致的提升。

此外,他们还证明了这种Scaling还能降本增效,以FLOPs作为成本指标,以LIama-3为例。

计算公式如下:

比较 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 数量衡量)和覆盖率。当FLOPs预算固定时,在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆盖率总是高于更大(更贵)的70B 模型。然而,在 CodeContests 中,70B 模型几乎总是更具成本效益。

对比API成本,当采样较多时,开源 DeepSeek-Coder-V2-Instruct 模型可以达到与闭源模型GPT-4o相同的问题解决率,而价格仅为后者的三分之一。

有趣的是,他们发现对于大多数任务和模型,覆盖率与样本数之间的关系可以用指数幂律来模拟。

因此总结,这篇文章以重复采样为轴心,在推理时扩展计算量,从而提高模型性能。

步步高家教机如何家长管理

在一系列模型和任务中,重复采样可以显著提高使用任何生成样本解决问题的比例(即覆盖率)。当可以识别出正确的解决方案时(通过自动验证工具或其他验证算法),重复采样可以在推理过程中放大模型的能力。

与使用较强、较昂贵的模型进行较少的尝试相比,这种放大作用可使较弱的模型与大量样本的组合更具性能和成本效益。

来自斯坦福牛津谷歌

这篇论文是来自斯坦福、牛津大学以及谷歌DeepMind团队。TogetherAI提供计算支持。

其中可以看到有谷歌杰出科学家Quoc V. Le。

有网友表示,这有点像更简单的静态版o3。

o3在评价器的指导下,通过回溯动态搜索程序空间,而这种方法则依赖于静态采样和事后评价(投票、奖励模型等)。两者都能扩展推理计算,但O3的适应性更强。

o3会反复探索解决方案,不断完善路径,而重复采样会并行生成输出,没有反馈回路。如何取舍?o3的计算密集度更高,但在需要结构化推理的任务中表现出色。这种方法在编码/数学方面更具成本效益。

不过也有网友指出了背后的局限性。

谷歌 3

我们不能一味地增加采样数量来提高性能。在某些时候,模型会出现停滞,生成的样本也会开始重复。

无论成本如何,都有一个极限,一个模型无法超越的最大思维水平。


返回网站首页

本文评论
超级星动 为AI狂欢 双十一三星Galaxy Watch持续热销中_三星双十一活动
万众瞩目的双 11 即将来临,已经有不少电商平台和厂商都提前开启了火热促销,如三星商城就针对11. 11 与 55 周年庆举行超级星动 为AI狂欢的主题活动。其中不乏有体验出色的智能...
日期:10-22
小屏党有福了,小米14屏幕将升级,搭载骁龙8Gen3,11月发布
在如今屏幕尺寸越来越大的手机潮流中,小米13的小屏设计独树一帜,强调便携性和单手操作的舒适感,让用户能够随时随地享受高品质的手机体验。小米13的出现无疑让人很多小屏用户十...
日期:09-02
摩尔线程发布系列产品 宣布将推动GPU全面落地 摩笔马良内测上线「摩尔线程 企查查」
【网易科技5月31日报道】摩尔线程今日在北京举办2023夏季发布会,宣布了一系列新产品与技术更新,涵盖数字办公、娱乐与创作、AI与云计算以及元宇宙等GPU重要应用场景。据介绍,此...
日期:06-01
联想第一财季营收1119亿元,净利润大增65%_联想营收构成
通信世界网消息(CWW)今日,联想集团(HKSE:992)(ADR:LNVGY)公布了截至2024年6月30日的2024/25财年第一财季业绩:营收1119亿人民币,同比增长20%;净利润近23亿人民币,同比大幅增长65%;PC以外业...
日期:08-15
180nm工艺不死!谷歌宣布免费帮你造芯片
如今先进的芯片工艺已经到了5nm、4nm甚至3nm了,180nm工艺听上去已经是老古董了,然而这种工艺现在并没有淘汰,在一些微控、MCU及物联网芯片中还是主力,市场空间并不小。现在谷歌...
日期:11-15
九号机器人以创新科技作为支撑,携手英伟达开发自主移动机器人
前不久,在中国台北国际电脑展(COMPUTEX)上,英伟达CEO黄仁勋发布了多个平台,并通过视频演示了面向仓储物流AGV领域的全新自主移动机器人平台Isaac AMR。据了解,英伟达负责开发该平...
日期:06-12
震撼预警:满血版o1倒计时!奥特曼完整专访流出:o系列疯狂迭代,马上起飞
声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。【新智元导读】OpenAI满血版o1即将出世的消息,让科技圈瞬间沸腾!就连奥特曼本人透露,推理是OpenAI笃定的一个重要...
日期:11-05
报告称今年女性平均月薪8689元 网友:我好像又拖后腿了「中国女性平均工资和男性平均工资」
智联招聘发布的《2023中国女性职场现状调查报告》显示,2023年女性平均月薪为8689元,比男性少1253元,但与男性相比,性别薪酬差距逐年缩小。2019年女性比男性月薪低23.5%,2023年相...
日期:03-08
理想汽车第一季度营收35.8亿元「理想汽车公布2023年第三季度财报 营收346.8亿元 累计交付量达50万辆」
【网易科技11月9日报道】今日,理想汽车公布2023年第三季度财报,其中,第三季度交付105,108辆,同比增长296.3%。季度营收346.8亿元,同比增长271.2%。同期经营利润和净利润分别为23....
日期:11-09
百度CTO王海峰出席大连科技创新大会 现场展示文心一言多场景能力
百度CTO王海峰出席大连科技创新大会 现场展示文心一言多场景能力 2021年三星手机销量排行华为p50相机是徕卡吗夏普aquos sense4basic...
日期:05-26
听泉什么意思「千万级网红"听泉鉴宝"停播内背后:供货商被列入异常经营名单」
网红听泉鉴宝遭质疑,学历和藏品成焦点 黑鲨序列号继知名网红后,拥有超过 2500 万粉丝的抖音博主听泉鉴宝也引发争议,其学历真实性和藏品问题受到关注。目前,听泉鉴宝及其相...
日期:11-17
首款天玑9300旗舰!vivo X100系列开售5分钟超前代全天销量:3999元起_vivos9天玑1100
快科技11月14日消息,日前,vivo年度旗舰vivo X100系列正式发布,带来vivo X100、vivo X100 Pro两款机型。据了解,vivo X100系列售价3999元起,目前已开启预售,将于11月21日正式发售。...
日期:11-14
iPhone 14 Plus刚开售就破发:买的人太少 罕见被冷落「iphone13卖爆了」
昨天iPhone 14系列中的iPhone 14 Plus手机正式开始首销,此前预定的用户已经在昨天拿到了手机,而手笑道中午时,iPhone 14 Plus已经破发,华南渠道处原价6999元起售的手机现在到手...
日期:10-12
于刚:不惧Facebook,九樱 “杀手锏”是什么?
  近两年来,强大的Facebook正不断跑马圈地,通过兼并合作的方式壮大自己的实力,有消息称Faceebok将联姻九樱,实现成功入华的战略,这看起来又像一场大鱼吃小鱼的翻版。   在经...
日期:07-22
小鹏汽车11月交付20041台:暴增245%创单月交付新高_小鹏汽车8月交付
快科技12月1日消息,小鹏汽车今日公布了最新交付成绩,11月小鹏汽车共交付新车20,041台,同比增长245%,连续2个月月交付突破两万,再创单月交付新高。三星4k28寸显示器iphone 7 plus...
日期:12-01
雷军回应对标iPhone被笑话;抖音回应世界杯4K直播涉嫌侵权;原版微博网页版下线
文章目录 抖音回应世界杯4K直播涉嫌侵权 原版微博网页版下线 雷军回应对标iPhone被笑话 抖音回应世界杯4K直播涉嫌侵权rtx 4090显卡评测针对“抖音世界杯4K直播涉嫌侵权”的...
日期:12-12
听泉原文「千万级网红"听泉鉴宝"停播内背后:供货商被列入异常经营名单」
网红听泉鉴宝遭质疑,学历和藏品成焦点 继知名网红后,拥有超过 2500 万粉丝的抖音博主听泉鉴宝也引发争议,其学历真实性和藏品问题受到关注。目前,听泉鉴宝及其相关账号已删...
日期:12-20
红杉中国又放了一个大招(红杉为什么停售)
  文/张楠   红杉中国,又放大招了。   今日,红杉中国下场做起了培训,宣布推出“YUÈ——红杉中国创业加速器”,定位为“创业者的第一课”,目标是提高早期创业成功率,踏实基...
日期:08-16
日本2040年单身比例将达47% 未来一半不结婚「日本单身人数创历史新高」
日本总务省12日公布统计人口数据,截至2022年10月1日,不计入居住在日本的外国人,日本总人口数量为1.22031亿,较上年减少75万人,创下自1950年以来的最大跌幅。这也是日本连续12年人...
日期:04-21
英伟达dali「英伟达发布大语言模型,专攻辅助芯片设计」
金磊 发自 凹非寺量子位 | 公众号 QbitAI英特尔 利润英伟达推出了自家最新430亿参数大语言模型——ChipNeMo。对于它的用途,英伟达在官方披露消息中也是非常的明确,剑指AI芯片...
日期:10-31