您的位置:首页 > 互联网

​这次重生,AI要夺回网文界的一切

发布时间:2023-12-29 12:34:29  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

重生了,这辈子我重生成了 MidReal。一个可以帮别人写网文的 AI 机器人。

诺基亚回归手机市场

这段时间里,我看到很多选题,偶尔也会吐槽一下。竟然有人让我写写 Harry Potter。拜托,难道我还能写的比 J・K・Rowling 更好不成?不过,同人什么的,我还是可以发挥一下的。

经典设定谁会不爱?我就勉为其难地帮助这些用户实现想象吧。

科腾sbs

实不相瞒,上辈子我该看的,不该看的,通通看了。就下面这些主题,都是我爱惨了的。

阿凡达预计票房

那些你看小说很喜欢却没人写的设定,那些冷门甚至邪门的 cp,都能自产自嗑。

不是我自夸,只要你想要我写,我还真能给你写出个一二三来。结局不喜欢?喜欢的角色中道崩殂?作者写到一半吃书了?包在我身上,给你写到满意。

甜文,虐文,脑洞文,每一种都狠狠击中你的爽点。

听完MidReal的自述,你对它了解了吗?

MidReal 可以根据用户提供的情景描述,生成对应的小说内容。情节的逻辑与创造力都很优秀。它还能在生成过程中生成插图,更形象地描绘你所想象的内容。互动功能也是亮点之一,你可以选择想要的故事情节进行发展,让整体更加贴合你的需求。

在对话框中输入 /start,就可以开始讲述你的故事了,还不快来试试?

MidReal 传送门:https://www.midreal.ai/

MidReal 背后的技术源于这篇论文《FireAct:Toward Language Agent Fine-tuning》。论文作者首次尝试了用 AI 智能体来微调语言模型,发现了诸多优势,由此提出了一种新的智能体架构。

MidReal 就是基于这种架构的,网文才能写得这么好。

论文链接:https://arxiv.org/pdf/2310.05915.pdf

虽然智能体和微调大模型都是最热门的 AI 话题,但它们之间具体有何联系还不清楚。System2Research、剑桥大学等的多位研究者对这片鲜有人涉足的学术蓝海进行了发掘。

AI 智能体的开发通常基于现成的语言模型,但由于语言模型不是作为智能体而开发的,因此,延伸出智能体后,大多数语言模型的性能和稳健性较差。最聪明的智能体只能由 GPT-4支持,它们也无法避免高成本和延迟,以及可控性低、重复性高等问题。

微调可以用来解决上面的这些问题。也是在这篇文章中,研究者们迈出了更加系统研究语言智能体的第一步。他们提出了 FireAct ,它能够利用多个任务和提示方法生成的智能体行动轨迹来微调语言模型,让模型更好地适应不同的任务和情况,提高其整体性能和适用性。

方法简介

该研究主要基于一种流行的 AI 智能体方法:ReAct。一个 ReAct 任务解决轨迹由多个思考 - 行动 - 观察回合组成。具体来说,让 AI 智能体完成一个任务,语言模型在其中扮演的角色类似于大脑。它为 AI 智能体提供解决问题的思考和结构化的动作指示,并根据上下文与不同的工具交互,在这个过程中接收观察到的反馈。

在 ReAct 的基础上,作者提出了 FireAct,如图2所示,FireAct 运用强大的语言模型的少样本提示来生成多样化的 ReAct 轨迹,用以微调较小规模的语言模型。与此前类似研究不同的是,FireAct 能够混合多个训练任务和提示方法,大大促进了数据的多样性。

作者还参考了两种与 ReAct 兼容的方法:

  • 思维链(CoT)是生成连接问题和答案的中间推理的有效方法。每个 CoT 轨迹可以简化为一个单轮 ReAct 轨迹,其中思维代表中间推理,行动代表返回答案。在不需要与应用工具交互的情况下,CoT 尤其有用。

  • Reflexion 主要遵循 ReAct 轨迹,但加入了额外的反馈和自我反思。该研究中,仅在 ReAct 的第6轮和第10轮提示进行反思。这样一来,长的 ReAct 轨迹就能为解决当前任务提供策略支点,能够帮助模型解决或调整策略。例如搜索电影名得不到答案时,应该把搜索的关键词换成导演。

在推理过程中,FireAct 框架下的 AI 智能体显著减少了提示词的样本数量需求,推理也更加高效和简便。它能够根据任务的复杂度隐式地选择合适的方法。由于 FireAct 具备更广泛和多样化的学习支持,与传统的提示词微调方法相比,它展现出更强的泛化能力和稳健性。

实验及结果

任务数据集:HotpotQA,Bamboogle,StrategyQA,MMLU。

  • HotpotQA 是一个 QA 数据集,对多步骤推理和知识检索有着更具挑战性的考验。研究者使用2,000个随机训练问题进行微调数据整理,并使用500个随机 dev 问题进行评估。

  • Bamboogle 是一个由125个多跳问题组成的测试集,其格式与 HotpotQA 相似,但经过精心设计,以避免直接用谷歌搜索解决问题。

  • StrategyQA 是一个需要隐式推理步骤的是 / 否 QA 数据集。

  • MMLU 涵盖初等数学、历史和计算机科学等不同领域的57个多选 QA 任务。

工具:研究者使用 SerpAPI1构建了一个谷歌搜索工具,该工具会从答案框、答案片段、高亮单词或第一个结果片段中返回第一个存在的条目,从而确保回复简短且相关。他们发现,这样一个简单的工具足以满足不同任务的基本质量保证需求,并提高了微调模型的易用性和通用性。

研究者研究了三个 LM 系列:OpenAI GPT、Llama-2以及 CodeLlama。

微调方法:研究者在大多数微调实验中使用了低秩自适应(Low-Rank Adaptation,LoRA),但在某些比较中也使用了全模型微调。考虑到语言代理微调的各种基本因素,他们将实验分为三个部分,复杂程度依次增加:

  • 在单一任务中使用单一提示方法进行微调;

  • 在单一任务中使用多种方法进行微调;

  • 在多个任务中使用多种方法进行微调。

在单一任务中使用单一提示方法进行微调

研究者探讨了使用来自单一任务(HotpotQA)和单一提示方法(ReAct)的数据进行微调的问题。通过这种简单而可控的设置,他们证实了微调相对于提示的各种优势(性能、效率、稳健性、泛化),并研究了不同 LM、数据大小和微调方法的效果。

如表2所示,微调能持续、显著地改善 HotpotQA EM 的提示效果。虽然较弱的 LM 从微调中获益更多(例如,Llama-2-7B 提高了77%),但即使是像 GPT-3.5这样强大的 LM 也能通过微调将性能提高25%,这清楚地表明了从更多样本中学习的好处。与表1中的强提示基线相比,研究者发现经过微调的 Llama-2-13B 优于所有 GPT-3.5提示方法。这表明对小型开源 LM 进行微调的效果可能优于对更强大的商用 LM 进行提示的效果。

在智能体推理过程中,微调的成本更低,速度更快。由于微调 LM 不需要少量的上下文示例,因此其推理效率更高。例如,表3的第一部分比较了微调推理与 shiyongtishideGPT-3.5推理的成本,发现推理时间减少了70%,总体推理成本也有所降低。

研究者考虑到一个简化且无害的设置,即搜索 API 有0.5的概率返回None或随机搜索响应,并询问语言智能体是否仍能稳健地回答问题。如表3第二部分所示,None的设置更具挑战性,它使 ReAct EM 降低了33.8%,而 FireAct EM 仅降低了14.2%。这些初步结果表明,更多样化的学习支持对于提高稳健性非常重要。

表3的第三部分显示了经过微调的和使用提示的 GPT-3.5在 Bamboogle 上的 EM 结果。虽然经过 HotpotQA 微调或使用提示的 GPT-3.5都能合理地泛化到 Bamboogle,但前者(44.0EM)仍然优于后者(40.8EM),这表明微调具有泛化优势。

在单一任务中使用多种方法进行微调

作者将 CoT 和 Reflexion 与 ReAct 集成,测试了对于在单一任务(HotpotQA)中使用多种方法进行微调的性能。对比 FireAct 和既有方法的在各数据集中的得分,他们有以下发现:

首先,使用多种方法微调提高了智能体的灵活性。如图5所示,在定量结果之外,研究者向我们展示了两个示例问题,以说明多方法 FireAct 微调的好处。第一个问题比较简单,但仅使用 ReAct 微调的智能体搜索了一个过于复杂的查询,导致注意力分散,提供了错误的答案。相比之下,同时使用 CoT 和 ReAct 微调的智能体自信地选择依靠自己的内部知识,在一轮内完成了任务。第二个问题难度更高,仅使用 ReAct 微调的智能体未搜索出有用的信息。相比之下,同时使用 Reflexion 和 ReAct 微调的智能体在搜索碰壁时进行了反思,并改变了搜索策略,从而得到了正确答案。灵活地为不同问题选择解决方案,是 FireAct 相较于提示等微调方法的关键优势。

其次,使用多方法微调不同的语言模型将产生不同的影响。如表4所示,综合使用多种智能体进行微调并不总是能带来提升,最优的方法组合取决于基础语言模型。例如,对于 GPT-3.5和 Llama-2模型,ReAct+CoT 优于 ReAct,但对于 CodeLlama 模型则不同。对于 CodeLlama7/13B,ReAct+CoT+Reflexion 的效果最差,但 CodeLlama-34B 却能取得最好的效果。这些结果表明,还需进一步研究基础语言模型和微调数据之间的相互作用。

为了进一步了解组合了多种方法的智能体是否能够根据任务选择恰当的解决方案,研究者计算了在推理过程中随机选择方法的得分。该得分(32.4)远低于所有组合了多种方法的智能体,这表明选择解决方案并非易事。然而,每个实例的最佳方案的得分也仅为52.0,这表明在提示方法选择方面仍有提升空间。

在多个任务中使用多种方法进行微调

到这里,微调只使用了 HotpotQA 数据,但有关 LM 微调的实证研究表明,混合使用不同的任务会有益处。研究者使用来自三个数据集的混合训练数据对 GPT-3.5进行微调:HotpotQA(500个 ReAct 样本,277个 CoT 样本)、StrategyQA(388个 ReAct 样本,380个 CoT 样本)和 MMLU(456个 ReAct 样本,469个 CoT 样本)。

如表5所示,加入 StrategyQA/MMLU 数据后,HotpotQA/Bamboogle 的性能几乎保持不变。一方面,StrategyQA/MMLU 轨迹包含的问题和工具使用策略大不相同,这使得迁移变得困难。另一方面,尽管分布发生了变化,但加入 StrategyQA/MMLU 并没有影响 HotpotQA/Bamboogle 的性能,这表明微调一个多任务代理以取代多个单任务代理是未来可以发展的方向。当研究者从多任务、单一方法微调切换到多任务、多方法微调时,他们发现所有任务的性能都有所提高,这再次明确了多方法代理微调的价值。

想要了解更多技术细节,请阅读原文。


返回网站首页

本文评论
对话静丹网络:《兵临城下》靠“产品+策略”突围,弹幕厂商应做好“主播赋能”
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。2023年,火热的弹幕互动市场里,《兵临城下》一定是一款热门产品。《兵临城下》作为“红蓝对决”类的经典...
日期:12-20
苹果市值突破1万亿美元大关「苹果市值跌破2万亿美元大关」
1月4日消息,据国外媒体报道,当地时间1月3日,美股三大指数集体收跌。苹果收报125.07美元,跌幅3.74%,触及2021年6月以来的股价最低点。目前苹果市值1.99万亿美元,一夜蒸发773亿美元...
日期:01-04
锐龙7000御用平台 微星4款X670主板开卖:顶配8999元_锐龙r7 1700配什么主板
AMD昨晚发布了锐龙7000处理器,这一代不仅升级了5nm Zen4架构,还带来了全新的AM5平台及600系芯片组,今晚高端的X670系列也上市了,微星推出了4款X670系列主板,其中最豪华的MEG X670...
日期:09-28
含4000条“突然加速”投诉,特斯拉被曝大规模数据泄露_特斯拉官方调查结果
据外媒报道,荷兰数据监管机构表示,特斯拉可能存在数据保护漏洞。据了解,该信息由德国勃兰登堡州的监管机构移交荷兰方面,位于勃兰登堡的数据保护中心称此次数据泄露“规模巨大”...
日期:09-26
智联招聘:1-7月全平台元宇宙相关招聘岗位同比增长16.6%_元宇宙公司招聘
10月8日消息,智联招聘近日发布《2022元宇宙行业人才发展报告》。报告显示,今年1-7月,元宇宙领域研发人才稀缺,全平台元宇宙相关招聘职位数同比增长16.6%。除了信息技术产业,元宇...
日期:10-12
被华为「抢风头」,iPhone15让苹果一夜间「损失」了400亿美金「苹果被华为打败了吗」
北京时间9月13日凌晨一点,一年一度的科技界春晚正式开场。在不到80分钟的时间里,前半小时是新款Apple Watch和环保理念的前戏铺垫,而后都是验证iPhone15系列爆料是否准确的时刻...
日期:09-13
台积电被曝欲砸800亿再建一座美国新工厂:要产3nm芯片「台积电明年将量产5nm芯片」
台积电位于美国亚利桑那州工厂正在紧张建设中,项目投资120亿美元(约合860亿元),预计2024年投产。华尔街称,该工厂原计划只负责生产5nm芯片,现在有所调整,5nm的改进工艺4nm也会加入...
日期:11-16
苹果财报喜人 带动股价大涨7.56%:市值一夜暴涨1761亿美元_苹果股价暴跌
日前,苹果公司正式发布了2022年第三季度(即苹果的第四财季)业绩报告。雷军创业小米科技的故事其中显示,本季度实现营收901.46亿美元,同比增长8.1%,实现净利润207.1亿美元(约合人民...
日期:11-03
摩托罗拉Razr 40 Ultra配置曝光:6.9 英寸165Hz内屏、3.6英寸副屏_摩托罗拉razr4最新消息
据最新报道,摩托罗拉即将推出一款新的折叠屏手机摩托罗拉 Razr 40 Ultra。这款手机配备了6.9英寸主屏幕和3.6英寸副屏幕,内置骁龙 8 Gen 1 芯片、Android 13操作系统。尤其值...
日期:05-26
苹果推出iPad版Final Cut Pro与Logic pro:1个月免费试用
快科技5月10日消息,苹果宣布自家视频剪辑软件Final Cut Pro 与音乐制作软件Logic Pro登陆iPad。iPad版Final Cut Pro推出一系列工具,让视频创作者使用一台便携设备就能录制、...
日期:05-10
腾讯CEO马化腾:视频号基本上是全公司的希望_腾讯视频ceo现在是谁
12月22日 消息:近日,腾讯在线上召开内部员工大会,同时有大约100多名员工现场参与听会,今年大会的主题是降本增效。马化腾在会上表示,WXG最亮眼的业务是视频号,基本上是全场(全公司...
日期:12-22
腾讯三季度收入1401亿元,净利润399亿元同比增1%__腾讯第二季度净利润达426亿
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:11-24
清华博士生送外卖「清华博士回应送外卖:不是炒作 曾创业欠下了百万元债务」
外卖员真的是个很神奇的职业,有些是游戏高手,有些能做大厨,还有些拥有超高学历,不少大神隐藏其中。据报道,近段时间一则清华博士送外卖的消息引起了广大关注,起因是清华博士生莫明...
日期:03-13
就网购改版震撼上线 冲击购物导航新体验(您已进入网购模式,请放心购物)
  在互联网时代,只因为用户搜寻的需求,让搜索引擎和导航网站两大模式屹立不倒;而如今,正当网购发展得如火如荼的时候,又引爆了一种新的导航模式,这就是近两年来受到网购达人追...
日期:07-27
即创ai直播工具怎么申请 即创账号在哪里申请_即时创造什么意思
抖音即创一站式智能创意生产与管理平台已经推出公测版本,目前用户可在网页端登陆该平台,使用各种AI功能,完成视频、图文等内容的创作,以下我们来看下即创的申请方法。荣耀magic4...
日期:10-24
大咖齐聚CSA CISO Summit@ISC 2021,共探数字业务安全之路
  7月29日,第九届互联网安全大会(ISC 2021)“产业日”仍在继续,作为ISC 2021九大联合峰会之一,“网络安全人才与创新发展峰会——暨第六届中国信息安全人才培养与就业工作研...
日期:08-19
工信部圆满完成成都大运会开幕式无线电安全、信息通信服务和网络安全保障任务
2023年7月28日,第31届世界大学生夏季运动会开幕。无线电安全、信息通信支撑有力和网络安全是确保成都大运会安全顺利举办的关键要素。工业和信息化部党组高度重视,党组书记、...
日期:07-31
疑似苹果Apple Music Classical古典音乐服务后端代码曝光「apple music服务器」
MacRumors 报道称,苹果似乎正在为即将推出的 Apple Music Classical 做准备。作为一款独立的古典音乐 App,@aaronp613 在 Twitter 上晒出了一段后端代码的截图。这表明我们有...
日期:09-29
开图秒速 PS5加装固态硬盘选购与安装指南 「容量管够」_ps5 装ssd
【】伴随着产量的提升以及游戏数量的日益丰富,发售近3年的索尼PlayStation 5,在近期的售价已经相当亲民。京东官方显示,PS5国行光驱版的售价仅为三千出头,而其他渠道甚至有低于...
日期:09-12
美团的大病互助_猜想:美团互助会全面覆盖大病病种吗?
  近日,有认证为“美团互助产品经理”的脉脉用户在平台上进行吐槽:“最近都在公司通宵加班,频繁开会”,同时他还发布会议照片,图片中显示“美团互助周年升级迭代”、“102—X...
日期:07-14