您的位置:首页 > 互联网

OpenAI o1太贵?那就自己做一个,纯提示方法让普通LLM进化出复杂推理能力

发布时间:2024-11-08 10:26:54  来源:互联网     背景:

声明:本文来自微信公众号“新智元”,作者:新智元,授权转载发布。

近日,一篇文章在推特上爆火,利用纯提示方法让普通LLM摇身一变,成为具备复杂推理能力的OpenAI o1。

九月份,OpenAI o1正式登场。

作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。

在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。

OpenAI对此曾表示:通往AGI的路上,已经没有任何阻碍。

——但其实还是有的,那就是新东西通常太贵。

o1-preview的每百万输入token为15美元,每百万输出token为60美元,而对位的GPT-4o分别是5美元和15美元。

本来GPT-4o就不便宜,现在想体验更强大的推理能力则需要再付出几倍的成本。

嫌OpenAI o1太贵?那就自己做一个!

microsoft office个人版本多少钱

近日,一篇利用纯提示方法让普通LLM变身成为OpenAI o1的文章在推特上爆火。

开源代码:https://github.com/harishsg993010/LLM-Research-Scripts

动态思维链(Dynamic Chain of Thoughts)+ 反思(refection)+ 语言强化学习(verbal reinforcement),

让没有经过特殊推理训练的GPT-4o、价格更便宜的Claude3.5Sonnet,甚至是开源免费的Llama3.18B,在复杂问题的推理上都获得了相当大的提升!

在严格的学术基准测试中,开挂之后的Claude3.5Sonnet反超GPT-4o,和o1打平。

——不是o1玩不起,而是开挂更有性价比。

怎样才能把Claude3.5调教成比博士还要强的o1呢?

在OpenAI o1的官网中有下面这样一个范例,从密文和明文的对应中找关系,然后解码一段新的密文。

老实说,如果没刷过这类题,小编估计一时半会儿也找不着北。

o1作对这道题花费了5秒的思考时间,在官网中点开下拉可以看到它的推理过程,真是混沌又守序。

时而规规矩矩思考,找出不错的方向,又经常马马虎虎,与正确道路失之交臂,兜兜转转,跟人类很像。

——模拟这个思考的过程,也许就是关键。

make LLM smarter

首先,OpenAI o1所代表的reasoning model具有以下能力:

逻辑思考

作出推论

解决复杂问题

根据可用信息做出明智的决策

这些能力对于AI未来的发展至关重要:

Deeper Understanding:真正的推理能力表明LLM可以超越模式匹配,对世界有更深入的理解。

Problem-Solving:可以更有效地解决复杂领域的问题。

Decision-Making:帮助人类进行复杂的决策过程。

Generalization:帮助LLM在out of distribution任务上表现得更好,增强它们的泛化性。

Practical Applications:推理能力可以加速科学发现,加强政策制定,并改善教育和医疗保健领域的个性化服务,比如AI Agent,可以获取时间序列数据的数据集,找到一个更难的模式来识别,以此准确预测未来。

对于o1来说,如果花费更长的训练或者推理时间,其性能还会不断提升。

那么,对于其他LLM来说,是否也能如此?

在阅读了一些论文之后,作者决定创建新的提示范式,结合动态思维链、反思和语言强化,并通过实验来验证提示的效果。

以下是编码和数学问题中所采用的prompt示例:

    Beginbyenclosingallthoughtswithintags,exploringmultipleanglesandapproaches.Breakdownthesolutionintoclearstepswithintags.Startwitha20-stepbudget,requestingmoreforcomplexproblemsifneeded.Usetagsaftereachsteptoshowtheremainingbudget.Stopwhenreaching0.Continuouslyadjustyourreasoningbasedonintermediateresultsandreflections,adaptingyourstrategyasyouprogress.Regularlyevaluateprogressusingtags.Becriticalandhonestaboutyourreasoningprocess.Assignaqualityscorebetween0.0and1.0usingtagsaftereachreflection.Usethistoguideyourapproach:

    0.8+: Continue current approach0.5-0.7: Consider minor adjustmentsBelow0.5: Seriously consider backtracking and trying a different approach

    If unsure or if reward score is low, backtrack and try a different approach, explaining your decision within <thinking> tags.For mathematical problems, show all work explicitly using LaTeX for formal notation and provide detailed proofs.Explore multiple solutions individually if possible, comparing approaches in reflections.Use thoughts as a scratchpad, writing out all calculations and reasoning explicitly.Synthesize the final answer within <answer> tags, providing a clear, concise summary.Conclude with a final reflection on the overall solution, discussing effectiveness, challenges, and solutions. Assign a final reward score.

    深入细节

    动态CoT、反思和语言强化学习的组合框架创建了一个高度自适应和响应迅速的问题解决AI系统。

    这个过程从Dynamic CoT生成初始推理路径开始,然后通过Reflection机制对其进行评估和完善。

    在每个反思阶段之后,模型会以奖励分数的形式得到强化,从而指导未来的推理步骤。

    这种循环过程使模型能够迭代改进输出,适应不断变化的条件,并有效地响应复杂的问题结构。

    比如在自主导航等多阶段决策任务的场景中,模型可能首先使用Dynamic CoT探索路径。

    当它遇到障碍或环境变化时,反射机制将允许它重新评估策略,而强化分数则为如何调整其行动提供指导。

    这样的AI系统不仅能从操作中学习,而且随着时间的推移不断提高其推理能力,尤其在动态的真实应用中。

    以上穿插的一组截图展示了LLM的推理过程。

    基准测试

    只是能够回答一些经典问题,例如计算单词strawberry中 r 的数量和比较0.9和0.11哪个更大,还不足以证明这套提示方法的功效——尽管大部分LLM连这样的问题都搞不定。

    作者为此创建了用于基准测试评估的数据集,包含来自JEE(Joint Entrance Examination)Advanced和UPSC prelims的问题。

    JEE Advanced被认为是全球最难的本科入学考试之一,面向有志于加入印度理工学院(IIT)的学生。

    UPSC公务员考试是世界上竞争最激烈的考试之一,吸引了希望在印度官僚机构担任管理人员的候选人,常识试卷测试不同领域的知识。

    这些问题非常严格,测试深入的概念理解、解决问题的能力以及跨多个领域(如物理、数学、化学、社会科学等)的概念应用。

    作者使用脚本来进行这项评估:

    脚本使用Streamlit创建一个Web应用程序,使用开源模型Groq API和闭源模型(如 gpt4o、o1和Claude)的API生成响应。

    脚本包括一个详细的系统提示(以You are an AI assistant that step by step explain your reasoning and explaining your reasoning ...开头),用于指导模型的推理过程。

    prompt指示AI使用动态思维链(CoT)、反射和语言强化学习技术。

    AI将其推理分解为清晰的步骤,每个步骤都有标题、内容、置信度分数和思考时间。

    每3个步骤,AI会进行一次自我反思,考虑潜在的偏见和不同的观点。

    脚本在允许最终答案之前至少执行15个步骤,以确保对给定查询进行全面分析。

    脚本修改自Benjamin Klieger的版本:https://github.com/bklieger-groq/g1

    作者修改了其实现的逻辑,用户会向AI系统提供一个问题,AI需要足够的时间以各种方式思考这个问题,最终解决这个问题——模仿人类如何思考。

    iPad pro 2021 oled

    结果表明,动态CoT、反射和语言强化学习技术的应用显著提高了大多数模型的性能,尤其是Claude Sonnet和Llama3.18b。

    满分48分,使用提示方法的Claude Sonnet拿到了最高分(40分),在数学、物理和化学问题上表现出色。Llama3.18b(33分)和GPT-4o(36分)也获得了明显改进。

    而不使用提示技术的o1得分为39分,确实具有很强的内在解决问题的能力,——但开挂的Claude取得了胜利。

    IMO2023基准测试

    OpenAI表示o1能够在IMO上获得83%的分数。

    作为对比,使用本文提示技术的Claude3.5Sonnet在首次测试中达到了50%,而如果多次测试就会反超o1。

    Putnam数学竞赛

    联想手机代言人朱一龙

    The William Lowell Putnam Mathematical Competition,俗称Putnam竞赛,是一项面向美国和加拿大本科生的极具挑战性的数学竞赛。

    比赛由两个3小时的部分组成,每个部分有6个问题。每道题10分,最高120分。

    二手笔记本thinkpadx1carbon

    Putnam竞赛被广泛认为是世界上最难的本科数学竞赛之一。

    参赛者成绩的中位数通常为0分或1分,这意味着超过一半的人基本上啥也没做出来。

    而在85年的竞赛历史中,只出现过五次满分。

    作者从2013到2023年的试卷中选取了28道题目:

    结果Llama3.170B、Claude Sonnet和o1mini解决了14个问题,o1模型解决了13个问题,GPT-4o解决了9个问题。

    可以看出,Claude Sonnet3.5使用本文的提示技术,能够在需要更好推理能力的问题中胜过o1模型。

    应用

    LLM就像一个阅读了数百万本书的人,但它不知道如何利用这些数据来解决问题,这就是提示技术的用武之地。

    人们可以利用这种推理能力来构建强大的工作流程自动化,以解决IT、网络安全、汽车等各个领域的问题。

    组织可以使用较小的开源模型来替代GPT-4o等成本较高的模型,用于需要复杂推理能力来解决的任务。

    参考资料:

    https://x.com/_philschmid/status/1842846050320544016


    返回网站首页

    本文评论
    理发店擅自发顾客剪发视频赔500元 法院:侵害消费者肖像权_理发店把你头发剪坏了如何投诉
    在互联网时代,直播和短视频平台的兴起为商家带来了新的营销手段,但同时也引发了一系列关于消费者权益保护的问题。近日,贵港市港北区人民法院审理了一起因理发师在未征得顾客同...
    日期:10-22
    时隔一年,AI盛会再聚北京!2024·Global AI Bootcamp共探AIGC企业落地应用新高度!
    3月9日,一场引领AIGC行业风向的盛会——2024·Global AI Bootcamp在北京微软亚太研发集团总部圆满落下帷幕。Global Al Bootcamp,作为Prompt Engineering Conf系列活动的重要...
    日期:03-12
    听泉鉴宝复播:不敢再休息了 自己沉淀了个寂寞_听泉阅读答案韩静霆
    拥有2585.2万粉丝的抖音网红主播"听泉鉴宝"在停播数日后回归直播。直播一开始,便迅速吸引了超过10万名观众进入直播间,显示出他极高的人气和粉丝对他复播的热烈期待。iphone 1...
    日期:10-16
    寒假来袭!登陆4399游戏盒萌一萌(4399游戏4399游戏戏盒)
      不知从何时起(或许就是那个夏天…),网游开始热衷于用“萌”来作为吸引玩家的噱头,罗莉、可爱、萌娘、蜀黍…一大批热点名词也因此流行开来。事实上,“萌”也并不是网游的...
    日期:07-25
    印度部长称苹果未来在印度投资规模有望实现2到3倍增长_苹果在印度市场
     4 月 21 日消息,印度信息技术副部长 Rajeev Chandrasekhar 本周三接受路透社采访表示,苹果公司未来几年在印度的投资、出口额会翻番,甚至会翻两番。苹果公司首席执行官蒂姆・...
    日期:10-02
    爱奇艺vr会员有啥用「独家 | 3000万元用户返现无法到账,爱奇艺VR业务陷入困局」
    奇遇共需要返现的金额约3000万元,这不是一笔小数目。但究其根源,无法完成返现只是导火索,根源是资金短缺文 | 刘以秦编辑 | 谢丽容爱奇艺旗下的VR公司梦想绽放科技有限公司(下称...
    日期:05-26
    在马来西亚建设公共云区域 甲骨文宣布将投资65亿美元_马来西亚是汉字文化圈吗
    IT之家 10 月 2 日消息,甲骨文宣布将投资 65 亿美元(IT之家备注:当前约 456.62 亿元人民币)在马来西亚打造一个公共云区域,本质上是一个为企业客户提供服务的数据中心网络。甲骨...
    日期:10-03
    湖北学生有福了!开学前用消费券来京东买手机、智能手表最高立减1500元!
    8月22日10点,湖北省发放“惠购湖北”3C数码消费券,众多湖北消费者第一时间涌入京东领券购买手机、智能手表、学习机、蓝牙耳机、翻译机等3C数码好物,销售活动异常火爆。京东数...
    日期:08-25
    裁员超5500人、净利润腰斩,腾讯怎么了?(今年裁员为什么这么多)
    查看最新行情   来源:极客公园   作者/连冉   编辑/郑玄   不出预料,腾讯二季度交出了一份糟糕的成绩单。   8月17日晚间,腾讯控股发布2022年第...
    日期:08-19
    facetoface换脸软件「换脸软件FaceFusion更新至2.3.0版本 面部交换更为自然」
    2月18日 消息:FaceFusion换脸软件最新更新至2.3.0版本,此次更新带来了一系列的改进和优化,让用户能够更加便捷和高效地使用这一面部识别工具。谷歌pixel7什么时候发布苹果推送...
    日期:02-18
    去了迪士尼就会高人一等吗 网友:明星为了带货罢了「去迪士尼人多吗」
    近日,一位明星夫妇在直播带货时发表了一番言论,表示如果不带孩子去迪士尼,孩子会感到自卑。这引发了网友的热议。腾讯股票 知乎骁龙888和三星exynos 1080差多少三星bespoke系列...
    日期:07-19
    车主集体投诉宝马id7系统虚假宣传 宝马中国回应_宝马最新id7系统介绍
    近段时间,宝马多款车型频频登上投诉榜,除了此前令车主头疼的烧机油之外,还有车机功能涉嫌销售欺诈,令不少车主气愤。据澎湃新闻”报道,多位车主向澎湃质量观投诉平台反映,他们购买...
    日期:04-05
    当世界读书日遇见华为阅读:让电子书读出“画面感”_支持华为阅读的电子书
    书籍是人类进步的阶梯,在每年4月23日世界读书日中,全球各地的人们共同庆祝阅读带来的乐趣与智慧,举办各种丰富多彩的活动,旨在推动更多的人去阅读和写作。每年华为阅读也都会在...
    日期:04-23
    解构雨滴下落为何不伤人 张朝阳开启近5小时“数学马拉松”
    【】10月7日消息,日前,《张朝阳的物理课》国庆特别节目开讲,搜狐创始人、董事局主席兼首席执行官张朝阳硬核解构“雨滴为什么不伤人”背后的流体力学原理,并求解了被称为“数学...
    日期:10-07
    德国网文公司进场,短剧出海终于卷到歪果仁了?_德国网页
    声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:白鲸出海,授权转载发布。故事的开始是我在 Instagram 上刷到一部名为《Beautiful Mistake》的短剧广告。剧情是熟悉的“...
    日期:12-26
    余承东宣布华为ADS 2.0高阶智能驾驶最领先:全国有图无图都能开_华为自动驾驶 余承东
    快科技11月9日消息,今晚华为举办智慧出行解决方案发布暨智界S7新品预售大会。会上余承东宣布,华为智慧出行致力于引领智能汽车最强技术创新。欧拉好猫2021上海车展华为ADS 2.0...
    日期:11-09
    中国空间站"太空菜园"画面公开!一片欣欣向荣_中国太空空间站有什么作用
    太空种菜,挑战无限!一加ace跑分多少中国载人航天工程最新消息显示,神舟十八号飞船的宇航员叶光富、李聪、李广苏已在太空驻留逾4个月。从公开的画面中可见,宇航员在空间站内开展...
    日期:09-21
    格尔软件公告「格尔软件亮相第九届中国(上海)国际技术进出口交易会」
    6 月 15 日,第九届中国(上海)国际技术进出口交易会在上海世博展览馆开幕,上海市商用密码行业协会会长单位格尔软件股份有限公司携手 40 多家商用密码企业集体亮相商用密码展...
    日期:06-16
    双11成交额增长,只是淘宝“低价”新故事的序章_双11历史事件
    声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:任雪芸,授权转载发布。2009年,第一届天猫双11购物节开启,“五折”打造的心智深入人心。实际上,这种优惠力度主要来自商家甩...
    日期:11-14
    周鸿祎回应互怼主持人程前道歉:年轻人犯点错很正常
    快科技1月11日消息,日前,程前朋友圈”主理人程前在微博发布道歉视频称,自己在风马牛年中秀”的表现不可原谅,错误低级。要向周鸿祎诚恳地说声抱歉,这绝不是我的本意”程前说。据...
    日期:01-11