您的位置:首页 > 互联网

清华、微软等淘汰提示工程师?LLM与进化算法结合,创造超强提示优化器

发布时间:2023-10-03 13:05:09  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),编辑:润 Lumina,授权转载发布。

【新智元导读】提示工程可以自动化了?EvoPrompt的出现解决了大型语言模型性能依赖高质量提示的挑战,同时展示了LLM在传统算法中的潜在价值。

将LLM的能力和传统算法结合起来,会碰撞出怎样的火花?

最近清华大学、微软研究院和东北大学的一项新研究表明,利用传统进化算法来处理提示词工程中的问题,可以大大提升效率。

将进化算法融入到提示词工程中,利用LLM来模仿进化算法中的进化算子来生成新的提示词,将性能更好的提示词保留下来不断迭代,这个自动化生成提示词的方式也许在未来会成为提示词工程中最重要的方法。

论文地址:https://arxiv.org/pdf/2309.08532

有网友自嘲到:

是我太老了吗,我记得两周以前提示工程师还是一个新职业......

研究人员借鉴进化算法的思想,提出了一种离散提示词(Discrete Prompt)调优框架——EvoPrompt。

虽然进化算法中的进化算子通常是针对序列设计的,但它们倾向于独立改变标记以生成新的候选解决方案。

不幸的是,这种方法忽略了标记之间的连接,这对于保持离散提示词的连贯性和可读性至关重要。

因此,为离散提示词设计进化算子(Evolutionary Operator)具有挑战性。

而研究人员利用LLM在自然语言处理方面的专业知识和进化算法的卓越优化能力,结合两种方式的优势,让LLM根据进化算子生成新的候选提示,而进化算法指导优化过程,保留最佳提示词。

win10麦克风静音怎么取消

具体来说,基于几个初始提示,研究人员利用LLM模仿进化算法中的进化算子来生成新的候选提示,并保留在开发集上性能更好的提示。

通过这种方式不停迭代来提高生成的提示词的质量。研究人员使用总共9个数据集,与手动设计的提示和以前的自动提示生成方法相比,EvoPrompt能持续获得更好的提示词。

离散提示词的自动优化

目前先进的大型语言模型(LLM)通常通过黑箱API进行交互,而梯度和参数则是不可访问的。进化算法(EA)是无导数算法,具有出色的准确性和快速的收敛性。

因此,研究人员考虑将EA引入到离散提示词(discrete prompt)优化中。

然而,在生成新的候选解决方案时,进化算子通常独立地编辑当前解决方案中的元素,而没有考虑它们之间的联系。这使得在需要连贯性和可读性的离散提示词上应用进化算子变得具有挑战性。

为解决这一挑战,研究人员设计了一种协同方法,将LLM的自然语言处理专长与EA的优化能力相结合,称之为EvoPrompt。

具体而言,LLM基于进化算子生成新的候选提示词,而EA引导优化过程以找到最佳的提示词。

为了在实践中实现EvoPrompt,有必要用EA的特定算法来实例化它。

EA有多种类型,研究人员考虑采用两种广泛使用的算法(遗传算法和差分进化算法)。GA是最受好评的进化算法之一,而DE自诞生以来已经成为解决复杂优化问题的最广泛使用的算法之一。两种算法都在业界获得了显著的认可和使用。

EvoPrompt的框架

EA(进化算法)通常从一个包含N个解决方案(在研究人员的研究中相当于提示词)的初始群体开始,然后使用当前群体上的进化算子(例如,变异和交叉)迭代地生成新的解决方案,并根据一个评分函数更新群体。

按照典型的EA,EvoPrompt主要包括三个步骤:

1. 初始群体:基于研究人员的观察,即大多数现有的基于提示词的方法忽视了人类知识提供的高效先验初始化,研究人员应用几个手动提示作为初始群体,以利用人类的智慧作为先验知识。

此外,EA通常从随机生成的解决方案(提示词)开始,产生一个多样的群体,并避免陷入局部最优。相应地,研究人员还将由LLM生成的一些提示词引入到初始群体中。

2. 进化:在每次迭代中,EvoPrompt使用LLM作为进化算子,根据从当前群体中选出的几个父提示生成一个新的提示。

为了实现这一点,研究人员仔细设计了针对每种特定类型的EA的变异和交叉算子的步骤,以及相应的指令,以指导LLM根据这些步骤生成新的提示。

3. 更新:研究人员在开发集上评估生成的候选提示,并保留那些性能优越的提示,类似于自然界中的适者生存。

具体的更新策略可能会根据所使用的EA的类型而有所不同。

算法在迭代次数达到预定义的上限时停止。EvoPrompt的详细内容如上图所示。当用EA的特定算法实例化EvoPrompt时,需要调整进化和更新过程,关键的挑战是设计用于离散提示的进化算子。

遗传算法的实例化

选择:在GA(遗传算法)中,通常会根据适应度值使用轮盘赌选择法选择两个父解决方案。类似地,研究人员使用轮盘赌选择法根据在开发集上评估的分数,从当前群体中选择两个父提示。

进化:根据GA中的进化算子,通过基于选定的两个父提示的两步过程生成一个新的候选提示:1)父提示经历交叉,从而生成一个从两个父提示中有选择性地组合成分的新提示;2)第一步中新生成的提示经历变异,在其中对其部分内容进行随机修改。

基于这个两步过程,研究人员设计了指导LLM生成基于这些步骤执行算法1中的Evo(·)的新提示的指令。该过程在下图中进行了详细的描述。

更新

EvoPrompt迭代地生成新的候选提示,并使用一个被标记为D的开发集来获得量化提示质量的分数。研究人员考虑一种直接的选择策略。具体来说,在每次迭代中,基于GA(遗传算法)的EvoPrompt会产生N个新的提示,这些将与当前N个提示的群体合并。然后通过保留得分最高的N个提示来选择更新后的群体。

与差分进化的实例化差分进化的初步知识

在DE(差分进化)中,解决方案由数值向量表示。每个候选向量在群体中被依次选为基础向量x,以进行变异和交叉。变异是基于一个从当前群体中随机抽取的解决方案a来生成一个变异解y。

进化

基于DE的EvoPrompt的进化过程可以分解为三个步骤:1)F(b−c);2)y=a+F(b−c);3)x和y的交叉。

在基于DE的EvoPrompt中,研究人员遵循这三个步骤来设计进化过程,以及相应的LLM指令,以生成基于这些步骤的新提示,如下图所示:

  • 受到DE中差分向量的启发,研究人员考虑只变异当前群体中两个随机选择的提示的不同部分(上图的步骤1和步骤2)。当前群体中的提示被认为是当前最佳的。因此,两个提示的共享组件往往对性能有正面影响,因此需要保留。

  • DE的一个变体在变异过程中使用当前最优向量,其中通过将差分向量的规模加到当前最优向量上来生成一个变异向量。基于这一思想,研究人员也利用当前最优的提示。具体来说,研究人员通过选择性地用变异的不同部分替换当前最佳提示的部分来生成一个变异提示(上图的步骤3)。

  • 交叉被定义为用来自变异提示的片段替换基础提示(即,当前群体的一个候选提示)的某些组件的过程。这个操作结合了两个不同提示的特点,可能会创建一个新的和改进的解决方案(上图的步骤4)。

EvoPrompt评估实验

在用GPT-3.5来执行进化算子时,研究人员使用了EvoPrompt对开源的Alpaca-7b和闭源的GPT-3.5进行了提示优化,并报告了在开发集上得分最高的提示在测试集中的得分。

是通过比较不同的提示方法,确定哪种提示方法能够在自然语言处理任务中实现更好的性能。

有手动设计的提示(ML)、从人工收集的提示中选择的提示(PromptSource 和 Natural Instructions),以及一种名为 APE 的方法,后者使用蒙特卡洛搜索来改进初始提示。

在展现了实验的实现细节和性能基线后,研究人员评估了EvoPrompt在语言理解和生成任务上的性能。

语言理解

研究人员在7个数据集上进行了EvoPrompt的语言理解实验。

如上图所示,与之前在提示符生成(APE)和人类书面指令方面的工作相比,EvoPrompt取得了明显更好的结果。

但在情感分类数据集上,EvoPrompt(GA)略优于EvoPrompt(DE)。

当涉及到主题分类数据集时,EvoPrompt(GA)和EvoPrompt(DE)的结果类似。

在在主观性分类任务(Subi)上,EvoPrompt(DE)明显优于EvoPrompt(GA),具有9.7%的准确性优势。

语言生成

研究人员通过文本摘要和简化任务对EvoPrompt进行评估。

在文本摘要任务中,用来评估的数据集采用了SAMSum,一个复杂的、具有挑战性的对话总结数据集。

研究人员报告了ROUGE-1/2/L 在 Alpaca-7b 和 GPT-3.5上的得分。

在文本简化任务中,研究人员采用了具有代表性的 ASSET数据集,该数据集具有多个参考文献,目的是在简化文本的同时保留原意。

报告了SARI 分数,这是一种广泛应用于文本编辑任务的基于 n-gram 的度量方法。

总结和简化的结果分别如表2和表3所示。

在两种不同规模的模型(Alpaca-7和 GPT-3.5)上,EvoPrompt都明显优于人工设计的提示和APE生成的提示。

此外,在总结任务上,EvoPrompt(DE)明显优于EvoPrompt(GA),而在简化任务上,EvoPrompt(DE)的表现与EvoPrompt(GA)相当。

算法分析

进化算子设计

当进化算子适用于离散提示时,EvoPrompt(DE)有两个关键的设计方面,包括只对不同部分进行变异和选择当前最佳提示(如图2中的提示3)。

研究人员在一个理解数据集Subj和一个生成数据集ASSET上研究了这些可能影响EvoPrompt(DE)有效性的设计,在前者中,EvoPrompt(DE)的性能远远优于EvoPrompt(GA)。

在后者中,EvoPrompt(DE)和EvoPrompt(GA)的性能相近。使用 GPT-3.5作为进化算子,并对 Alpaca-7b 的提示进行了优化。

为了说明仅突变不同部分的好处,研究人员将图2中的前两个步骤替换为指令:

随机突变提示1和提示2,以允许对提示1和提示2中的所有内容进行突变,如表4中的Al所示。

同时,EvoPrompt的原始设计,仅突变不同的部分,标记为Dice。如表4所示,仅对不同部分进行突变的设计始终提供了改进。

选择Prompt3在 EvoPrompt(DE) 算法中是应用DE算法的一种变体,在当前种群中选择最佳Prompt作为图2中的Prompt3。

研究人员通过以下设置来验证这一设计:

1) Prompt3从当前群体中随机抽样,在表4中表示为 随机:

2) 取消使用Prompt3,让基本Prompt直接与表4中变异的不同部分交叉。

此外,研究表明选择最佳提示作为提示3比随机抽样更有效。

EvoPrompt(GA)vs. EvoPrompt(DE)

研究人员在两种具体的算法上实现了提出的EvoPrompt,包括遗传算法(GA)和差分进化算法(DE)。

为了了解在这两种算法之间的选择过程,并理解它们各自的优势和局限性,研究人员选择了两个数据集:

1)SST-5,其中EvoPrompt(GA)表现更好;

2)Subj,在这个数据集上EvoPrompt(DE)表现出更优越的性能。

图3中显示了每次迭代在开发集上的平均和最佳得分。

在 SST-5上,使用 EvoPrompt (GA) 的群体平均质量一直优于使用 EvoPrompt (DE) 的群体平均质量,同时最优提示也更好。

这得益于GA的选择策略,其中得分较高的提示更有可能被选择为生成新提示的父代。

而在DE中,群体中的每个提示将按顺序选择为基础提示,而提示1和提示2则是随机选择的。

因此,GA更有可能在当前最佳解附近搜索,从而增加了在手动提示相对高质量的情况下获得更好结果的可能性。

例如,SST-5的手动提示已经设计得很好,EvoPrompt的改进不是很显著。相反,Subi上现有手动提示的性能较差,EvoPrompt比手动提示取得了显著的25%改进。

在这个数据集上,EvoPrompt(GA)陷入了局部最优解,而EvoPrompt(DE)成功逃脱并取得了更好的结果。

由于选择策略和良好设计的进化操作的优势,综合考虑,建议当已经存在多个高质量的提示时选择EvoPrompt(GA),否则选择EvoPrompt(DE)。

总结

为了解决LLM(大型语言模型)的性能高度依赖于精心设计的提示的挑战,研究人员设计了EvoPrompt,可以从初始群体中优化离散提示,同时使用LLM作为进化算子,以自动生成和搜索最优提示。

此外,基于研究人员的发现,他们相信LLM提供了一个有效和可解释的界面,用于实现传统算法,确保与人类理解和沟通有良好的一致性。

魅族15对比魅族15plus

研究人员的发现证实了最近的趋势,即LLM通过收集错误预测的样本,在离散空间内执行梯度下降。研究人员的工作通过展示LLM参与一大系列传统算法的潜力,已经取得了重要的进展。研究人员希望他们的探索将激发对LLM与传统算法组合的进一步研究,为LLM的新颖和创新应用铺平了道路。

参考资料:

https://arxiv.org/pdf/2309.08532


返回网站首页

本文评论
数实融合 创新驱动 | 2023北京互联网大会点亮数字北京建设_北京市互联网+大赛获奖名单
共襄科技盛举,共享数字北京。2023年9月18日,数字北京建设暨2023(第二十届)北京互联网大会在京举办,本次大会由北京市通信管理局指导、北京市通信行业协会主办、信通传媒·通信世...
日期:09-19
双11实体店有活动吗「双11的战火烧到了实体店」
声明:本文来自于微信公众号电商报Pro(ID:kandianshang),作者:月涯,授权转载发布。双11不再是电商的独角戏。京东全渠道生态参与双11电商巨头为线下实体门店突围双11添了一把火。...
日期:11-01
小姐姐最爱!Apple Watch Series 9首次推出粉色版_apple watch粉色耐脏吗
快科技9月13日消息,今天凌晨的苹果发布会上,首先亮相的就是Apple Watch Series 9系列。不出意外,这次在外观上依然没有太大的改变,传闻了两年的直角边框变化并没有出现。魅族音...
日期:09-13
购机即可抽女神节礼盒:荣耀V40线上线下联动献礼(荣耀v40预售活动方案)
  女神节将至,荣耀于3月4日公布了促销方案,联手野兽派定制精美礼盒献礼女性。从3月5日到8日线上购机即有机会抽取礼盒,另有免息福利。而线下指定门店的购机抽礼盒活动时间则...
日期:07-16
中国联通为助残适老插上数字化翅膀
通信世界网消息(CWW)6月4日至6日,第31届中国国际信息通信展(简称:PT展)在北京盛大启幕。现如今,随着5G、云计算、AI等技术加速赋能千行百业数智化转型,中国国际信息通信展览会已嬗变...
日期:06-06
「razr 40 Ultra拥有三种配色 「非凡洋红配色亮眼_摩托罗拉moto」」
来源:中关村在线魅蓝耳机贴牌红米Note11发布今晚19:00,moto razr小折叠新品发布会如期而至,moto razr 40 Ultra正式亮相。moto razr 40 Ultra配备3.6英寸超大外屏,6.9英寸旗舰大...
日期:06-02
17将淘汰iPhone 8、iPhone X等三款老机型 iOS
6月17日消息,一些被iOS 17淘汰的老机型,最近正在疯狂贬值,这情况也可以理解,毕竟得不到升级了。苹果A14成本在二手回收市场上,市场研究机构 SellCell 发布了一份报告,分析了来自40...
日期:09-23
极氪X发布:旗下首款紧凑型纯电动SUV 起价18.98万元_极氪纯电动车mpv
凤凰网科技讯 4月12日消息,极氪X发布会今晚举行,这是极氪旗下发布的第三款车型,该款新车基于SEA浩瀚架构研发,定位紧凑型纯电动SUV。新车共分为三个版本,18.98万元起售,将于今年6...
日期:04-13
饭圈文化解读「万物皆可饭圈:中文互联网“饭圈扩大化”现象研究」
声明:本文来自微信公众号“互联网怪盗团”(ID:TMTphantom),作者:怪盗团团长裴培,授权转载发布。所谓“饭圈”,本来是对娱乐圈狂热粉丝的一种戏谑性称呼。娱乐圈是一个很大的概念,“...
日期:09-11
IE退役,web3.0开启,欧科云链等新兴技术企业将为其奠基
今天,终于要对IE说再见了,无论人们对它是热爱也好,诟病也罢,属于IE的时代比较终画上了句号。1969 年,阿帕网的出现标志着互联网的诞生,但直到IE这样明星级产品的出现,才彻底引爆互...
日期:08-03
诺基亚发布新款诺基亚110 4g手机「诺基亚110手机评测」
诺基亚发布了新款诺基亚110手机,售价为259元。新手机在电池容量,蓝牙,按键等方面都比旧版有所升级。Facebook VR眼镜nova5是5G手机吗oppo find x6pro价格新的诺基亚110 4g手机...
日期:05-10
“大胃王”创始人被批捕,吃播界的“卷”仍在继续「大胃王称因吃播负债数十万」
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:王崭,授权转载发布。吃播界顶流“浪胃仙”的IP争议,逐渐落下帷幕。“浪胃仙”IP创始人游絮因涉嫌职务侵占400万元被检...
日期:12-19
小鹏亮相慕尼黑:2024年进军德国市场 P7i、G9两款车型率先登场「慕尼黑车展小鹏」
快科技9月5日消息,近日,小鹏汽车在刚刚开幕的德国慕尼黑车展上,首次推出了国际版P7i和G9两款车型。这意味着小鹏汽车将正式进入德国市场。从此前公布的消息来看,小鹏P7i在欧洲的...
日期:09-05
“无接触更安心”,微信支付携手五家银行送出“码上”购物满减优惠
  为了让大家在疫情期间依旧享受到安心、优惠的购物体验,3月1日起,微信支付携手工商银行、广发银行、交通银行、平安银行、浦发银行共同推出了“无接触更安心”的“微信支...
日期:10-08
谷歌 Chrome 浏览器将支持在侧边栏阅读文章,并同时浏览网页_chrome侧边标签页
  11 月 14 日消息,谷歌 Chrome 浏览器的侧边栏目前包含阅读列表、书签、Google Lens 结果等,但根据首次发现的新 Chromium 存储库提交,谷歌计划扩展其功能以包括阅读器模式...
日期:07-17
曹操出行上线碳积分兑换系统“碳惠里程”_曹操碳积分怎么用
10 月 13 日消息,曹操出行碳积分兑换系统“碳惠里程”日前正式上线。用户可以使用“碳积分”,在“曹操碳空间”里兑换低碳商品与专属权益。作为我国首个新能源共享出行平台,曹...
日期:10-16
腾讯内容开放平台维权再升级,助力创作者进行区块链存证在线诉讼
  随着互联网的快速发展,内容产业也呈现出加速增长态势,以图文和短视频内容为代表的自媒体内容在近两年获得了井喷式的发展,出现了很多优质的原创作者、作品。但同时,盗版抄...
日期:07-14
挤出泡沫、脱虚向实,AI大模型正在回归价值投资?_aida模型
声明:本文来自微信公众号“港股研究社”(ID:ganggushe),作者:好蓝不灵,授权转载发布。AI概念股价“分道扬镳” ,大涨与回调并存商品推荐、交通管理、生成文章、代码编程、电影特效...
日期:06-06
清华大学智能产业研究院院长张亚勤:AI发展过程中 算力会是最大的挑战
凤凰网科技讯 7月7日消息,中国工程院院士、清华大学讲席教授、智能产业研究院(AIR)院长张亚勤出席2023世界人工智能大会投融资主题论坛高端对话环节,与原中金公司总裁朱云来先生...
日期:07-08
鸡鸣寺游客爆满设反悔门引导离寺 缓解游客爆满问题「鸡鸣寺后门」
近日,南京鸡鸣寺吸引了大批游客,有网友拍下工作人员在鸡鸣寺正门前手持“反悔门”标识引导游客离开照片,引来了一众网友的调侃。mix3滑盖次数游客时女士称,这个“反悔门”是为了...
日期:03-23