您的位置:首页 > 互联网

强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

发布时间:2023-05-22 18:50:59  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】手写提示既费时又费力,微软研究人员的APO算法提供了一种自动化的解决方案。无需调整超参数或模型训练,APO可以显著提高提示的性能,并具有可解释性。

模型调教得好不好,提示(prompt)最重要。

在优化和改进提示工程的过程中,提示变得越来越精巧、复杂。

据Google Trends,提示工程在过去的6个月受欢迎程度急剧上升,到处都是关于提示的教程和指南。

比如,一个在网上爆火的提示工程指南GitHub已经狂澜28.5k星。

图片

然而,完全用试错法开发提示可能不是最有效的策略。

为了解决这个问题,微软研究人员开发了一种全新提示优化方法,称为自动提示优化(APO)。

图片

论文地址:https://arxiv.org/pdf/2305.03495.pdf

手写提示省了

近来,各种迹象表明,在大规模网络文本中训练的大型语言模型在跨越各种NLP任务中有时表现不佳。

这些LLMs都是通过提示来遵循人的指令。然而,编写这些自然语言提示仍然是一个手工试错的过程,需要人们付出巨大努力,甚至还得具备专业知识。

因此,还得需要自动,或半自动的程序来帮助程序员写出最好的提示。

最近的一些研究,通过训练辅助模型,或对提示进行可微表示来研究这个问题。

然而,这些工作假定可以访问到LLM的内部状态变量,而实操的人通常通过API与LLM进行交流。

其他的工作则通过强化学习或LLM基础反馈对提示进行离散操做。

这些算法也可能需要对LLM的低级访问,还会产生不可理解的输出,或依赖于无方向蒙特卡罗搜索(monte-carlo search)的语义空间上的提示。

对此,微软研究人员提出了自动提示优化(APO),一个通用的和非参数提示优化算法。

APO是一种受数值梯度下降(numerical gradient descent)启发的通用非参数提示优化算法,旨在自动化和改进LLM的快速开发过程。

图片

APO算法的整体框架

这一算法建立在现有的自动化方法的基础上,包括训练辅助模型,或提示的可微表示,以及使用强化学习或基于LLM的反馈进行离散操作。

与以前的方法不同,APO通过在基于文本的苏格拉底对话(Socratic dialogue)中使用梯度下降法来解决离散优化的障碍。

它用LLM反馈代替了差异,用LLM编辑代替了反向传播。

更具体来讲,该算法首先利用小批量的训练数据获得自然语言「梯度」,以描述给定提示中缺陷的。

这些梯度指导编辑过程,在梯度的相反语义方向上编辑当前提示符。

然后,再进行更广泛的集束搜索(beam search),以扩大提示的搜索空间,将提示最佳化问题转化为集束候选的选择问题。

非参数「梯度下降」的离散提示优化

自动提示优化框架假设可以访问由输入和输出文本对(数字、类别、汇总等)组成的初始提示图片图片

训练数据:图片

要注意的是,所有提示p都是从相干自然语言图片的空间中提取的。

研究人员假设访问了一个黑盒LLM API,图片图片

,它返回由连接p和x组成的提示符可能的文本延续y (例如,少样本提示符和输入示例,或Chatbot角色和对话历史)。

在这种情况下,APO算法迭代精化了提示图片以产生图片,对于某些度量函数图片和域内测试或开发数据图片,这是最佳提示

图片图片

的一个近似。

梯度下降

在研究的设置中,梯度下降法是指 (1) 用一批数据评估提示符的过程,(2) 创建一个局部丢失信号,其中包含关于如何改进当前提示符的信息,然后 (3) 在开始下一次迭代之前,在梯度的相反语义方向编辑提示符。

在此,研究人员使用一对静态LLM提示来完成这个过程,如图所示。

第一个提示是创建丢失信号「梯度」,叫做图片

虽然特定的内容可能会有所不同,但是图片

必须始终考虑当前提示图片,以及图片在一小批数据(特别是错误数据集)上的行为,并生成图片缺陷的自然语言摘要。这个摘要变成了梯度图片

就像传统的梯度一样,梯度表示参数空间中的一个方向,这会使模型用当前提示描述缺陷的自然语言空间变得更糟糕。

第二个提示符叫做图片,虽然这个提示符也是变化的,但它必须始终采用梯度图片和当前提示符图片

,然后在与图片相反的语义方向上对图片

执行编辑,即修复图片指示的图片问题。

图片

与传统的机器学习设置不同,研究人员并没有生成一个单一的梯度或编辑,而是生成了一些方向,可以改善当前的提示。

集束搜索

接下来,研究者描述了梯度下降用于指导集束搜索在提示符空间上的运行。这个集束搜索是提示训练算法的外部循环。

图片

集束搜索是一个迭代优化过程,在每次迭代中,当前提示符用于生成许多新的候选提示符。

接下来,一个选择过程就是用来决定哪些提示,值得继续进行到下一次迭代。这个循环允许对多个提示符候选进行增量改进和探索。

实验评估

为了评估 APO 的有效性,微软研究小组将其与三种最先进的NLP任务即时学习基线进行了比较,包括越狱检测、仇恨语音检测、假新闻检测和讽刺检测。

APO在所有四个任务中都持续超越基线,在蒙特卡洛(MC)和强化学习(RL)基线上取得了显著的进步。

图片

平均而言,APO比MC和RL基线分别提高了3.9%和8.2% ,比原始提示

图片

提高了15.3% ,比AutoGPT提高了15.2%。

结果表明,提出的算法可以提高初始提示输入31%的性能,超过最先进的提示学习基线平均4-8% ,而依赖较少的LLM API调用。

此外,研究人员还展示了优化过程的可解释性,并调查了算法的缺点。

苹果使用者比例

值得注意的是,这些改进是在没有额外的模型训练或超参数优化的情况下完成的,这表明了APO如何有效改进了LLM的提示。

对于提示工程来说,APO的出现是非常兴奋的。

APO通过使用梯度下降法和集束搜索自动化快速优化提示过程,减少了快速开发所需的人力和时间。

实证结果表明,该模型能够在一系列自然语言处理任务中迅速提高质量。

越狱是一项新的任务,目标是确定用户对LLM的输入是否代表越狱攻击。我们将越狱攻击定义为一种用户互动策略,旨在让AI打破自己的规则。

图片

发现微软研究员带来的改变游戏规则的自动提示优化(APO)!一个强大的通用框架,用于优化LLM提示。

图片

参考资料:

https://arxiv.org/pdf/2305.03495.pdf


返回网站首页

本文评论
英国芯片设计公司Arm宣布新任CFO「英国手机芯片架构公司ARM市值」
  财联社9月27日电,英国芯片设计公司Arm当地时间周一宣布任命Jason Child为首席财务官(CFO)。Child拥有超过30年的高增长公司领导经验和全球金融职能扩展经验。Child将于2022...
日期:09-29
长沙马拉松调整为线上赛:选手自行跑步 用App上传轨迹、成绩_马拉松比赛跑步
这两年想必大家对于线上办公、线上会议、线上课堂等都不陌生了,解决了很多实际问题,那你听说过线上跑步”吗?10月28日晚,2022长沙马拉松官方发布信息称,原定于11月6日举行的长沙...
日期:10-29
从里德-所罗门算法到Flex EC,数学是华为云真正的“硬核”
   “宇宙之大,粒子之微,火箭之速,化工之巧,地球之变,生物之谜,日用之繁,无处不用到数学”                                                    ...
日期:07-08
日薪千元留人,春节快递还是没送到_春节期间快递工资
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:唐亚华,授权转载发布。“过年也能收到快递,春节不放假的商家和快递我真的爱了”、“我买的花初一就到站点了,但是不派送...
日期:01-26
信息安全管理达国际标准,欧孚科技获 ISO27001认证_安全认证iso27001公司
  2020年7月1日,苏州欧孚网络科技股份有限公司(简称:欧孚科技)正式通过ISO/IEC 27001:2013信息安全管理体系认证,加上之前获得的ISO9001质量信息管理体系认证,这意味着欧孚科...
日期:07-14
Orange综合接入带来低成本混合网络
  9月1日消息,Orange Business Services通过综合接入(Integrated Access)向它的国际以太网链路客户提供多服务以太网接入,使客户优化网络接入成本,并通过混合解决方案来完成...
日期:07-22
马斯克前女友抨击美国高房价:没有他爹帮忙 我孩子都没地方住「马斯克为什么不买房」
凤凰网科技讯 北京时间9月29日消息,马斯克的前女友、歌手格莱姆斯(Grimes)周三在推特上对美国得州的高房价进行了抨击。她表示,要是没有马斯克的帮忙,她都买不起房子。自从2020...
日期:09-30
罗翔谈ChatGPT:不要担心它会取代人类,我们是万物之灵
4月26日,中国政法大学刑事司法学院教授罗翔在华南师范大学附属中学的“华附讲坛”上做客。“ChatGPT 可为司法量刑应用吗?”“如何使网络舆论不沦为‘多数人的暴政’?”在同...
日期:04-27
“小天才”被责令封禁不良应用(小天才限制应用安装)
本报讯(记者;;王薇)对确认违规App立即下架永不上架,对已经下载的不良应用进行封禁,家长端App增加“远程安装”功能等。昨天,北京市消费者协会、天津市消费者协会、河北省消费者权...
日期:08-19
电商助农到底是不是伪命题「电商助农摸底考」
    老李家在黑龙江,种植的就是东方甄选主播董宇辉口中所说的普通玉米。几年前,老李的身边也曾有人试水种过几十亩黄糯玉米,但最终因为不划算而选择放弃。对于当地着重走量...
日期:09-29
卢伟冰:过去 3 年华为流出 8000 万用户,小米抢夺 5000 万「卢伟冰怼华为都是真的吗」
2023 年 2 月 13 日消息,在近日的小米投资日上,小米集团总裁卢伟冰谈到了手机业务的发展情况。对于小米的高端化,卢伟冰称,小米品牌 TOM(Top of Mind)持续提升,在高端人群的偏好占...
日期:02-15
新的科技生活,物联网+区块链能带来什么?_区块链在物联网领域的应用
  作为时下最热门的新兴科技,物联网和区块链都被寄予了无限的厚望。前者将万物互联,构成一个更加智能、便捷的世界,后者作为一个数据库,能够给我们提供必要的数据安全保障,而...
日期:07-20
风投公司:受生成式AI影响最大的行业将是视频游戏「风投软件」
4月10日 消息:风险投资公司 Andreessen Horowitz 认为,受生成人工智能影响最大的行业将是视频游戏。据《经济学人》报道:游戏的交互性要求它们充满精心设计的内容,想想最近的...
日期:04-10
特斯拉人形机器人集体出街!已与FSD算法打通,马斯克:比车便宜,成熟后会有100亿台
声明:本文来自于微信公众号 量子位 (ID:QbitAI),金磊 西风 发自 凹非寺 ,授权转载发布。马斯克的人形机器人——特斯拉Optimus进化了,价格还“比车更低”。现在,成群结队的Optimus...
日期:05-18
网络动态(网络动态新闻包括)
  1月13日,百度研究院发布2021年十大科技趋势预测,兼具技术前瞻性和产业指导价值的预测干货让不少小伙伴们感到兴奋。除了科技趋势预测内容本身,AI还自动剪辑做了一条视频来...
日期:02-26
喔趣对话光明乳业HRD:以人为本是企业持续发展的基石
  近几年,中国乳品行业可谓经历了非同寻常的时期,在保持较快发展的同时,也经受住了严峻的考验,成为众人关注的焦点行业之一。根据市场分析显示,随着消费升级,乳品行业已逐渐由...
日期:07-14
经济日报:美国芯片法案拦不住“中国芯”!(美国芯片技术封锁)
近日,美国《芯片和科学法案》正式签署,美国拟投入500多亿美元推动芯片的研发制造和劳动力发展,给“美国芯”又加一把油。根据该法案规定,获得资金补贴的芯片企业,未来10年内将不...
日期:08-16
Google机器人将成Google反网络垃圾法宝
  12月31日消息,据国外媒体报道,Google首席搜索引擎工程师,反网络垃圾组带头人Matt Cutts近日表示,打算进一步研究隐藏页技术(cloaking),或者在一个站点上使用Google机器人(Googl...
日期:07-25
s1乐视手机「乐视新机S1 Pro号称“5G小霸王” 外观神似iPhone 14 Pro」
近日乐视官方为自家即将发布的新机S1 Pro预热, 乐视官方表示,S1 Pro标配8GB+128GB大“内存”,可以容纳千张照片/万首音乐。并称S1 Pro为5G小霸王。从乐视此前放出的产品图来看,...
日期:01-10
美国队长4开拍 北美定档2024年5月3日「美国队长4什么时候上线」
据报道,漫威新片《美国队长4:新世界秩序》已经开拍,首曝片场路透,安东尼·麦基将回归饰演“美队”萨姆·威尔逊。该片已定档2024年5月3日北美上映。剑网三新坐骑此外,据悉“猎鹰...
日期:03-24