您的位置:首页 > 互联网

GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动

发布时间:2024-02-13 11:28:45  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】最近,UIUC苹果华人提出了一个通用智能体框架CodeAct,通过Python代码统一LLM智能体的行动。

一直以来,LLM智能体被众多业界AI大佬看好,甚至有望成为将人类从琐碎工作中解放出来的利器。

但是,它们该如何与世界进行最佳互动?

最近,来自UIUC和苹果的华人研究员,提出了一种全新的智能体框架——CodeAct。

它通过采用可执行的Python代码,来统一LLM智能体的行动。

论文地址:https://arxiv.org/pdf/2402.01030.pdf

与多数现有的LLM智能体不同的是,CodeAct的突出之处在于:能够充分利用现有LLM对代码数据的预训练,以实现低成本高效的采用。

而且本质上可以通过控制和数据流支持复杂的操作,还可以使用广泛的软件包来扩展行动空间和自动反馈。

中国广电正积极开展5g运营规划

对此,作者还构建了一个CodeActAgent工具,在Mistral7B模型之上搭建,能够通过对话完成代码任务。

比如,你能创建100个随机数据点(每个数据点的维度为2)并创建散点图吗?运行 k-means 对它们进行聚类并可视化。

让LLM成为最优智能体

当允许访问API的行动模块进行增强时,LLM的行动空间可以扩展到传统的文本处理之外。

从而让LLM获得工具调用和内存管理等功能,并冒险进入现实世界的任务,例如控制机器人并进行科学实验 。

那么,如何有效拓展LLM智能体解决复杂现实问题的行动空间?

如下图1左上,许多现有研究已经检验了使用文本,或JSON来生成行动。

然而,这两种方法通常都受到行动空间范围的限制(行动通常是针对特定任务定制的)和灵活性有限(例如无法在单个行动中组合多个工具)。

另外一些研究展示了,使用LLM生成代码来控制机器人或游戏角色的潜力。

然而,它们通常依赖于预先指定的控制原语和手工设计的提示,更重要的是,它们很难根据新的环境观察和反馈动态调整或发出行动。

对此,这项研究提出了一个通用框架CodeAct,允许LLM生成可执行的Python代码作为行动(图1右上)。

CodeAct旨在处理各种应用程序,并具有独特的优势:

苹果设计师为什么离开

(1) CodeAct与Python解释器集成,可以执行代码行动,并动态调整先前的行动,或根据通过多轮交互(代码执行)收到的观察结果发出新行动。

(二) 代码行动允许LLM利用现有软件包。CodeAct可以使用现成的Python包来扩展行动空间,而不是手工制作的特定于任务的工具。它还允许大模型使用大多数软件中实现的自动反馈(例如错误消息),通过自我调试其生成的代码来改进任务解决。

(三) 代码数据广泛应用于当今大模型的预训练中。这些模型已经熟悉结构化编程语言,因此可以经济高效地采用 CodeAct。

(四) 与JSON和预定义格式的文本相比,代码本质上支持控制和数据流,允许将中间结果存储为变量以供重用,并用一段代码允许组合多个工具来执行复杂的逻辑操作(例如,if-语句、for循环),从而释放大模型预训练的编程知识来处理复杂任务的潜力。

在图1中,使用CodeAct(右上角)的法学硕士可以通过for循环将相同的工具序列应用到所有输入,只需一个行动。而文本或JSON必须对每个输入采取行动。

CodeAct框架

在图2中,首先介绍了LLM智能体在现实世界中使用的一般多轮交互框架,该框架考虑了三个角色:

智能体、用户、环境。

研究人员将交互定义为智能体与外部实体(用户或环境)之间的信息交换。

在每一轮交互中,智能体从用户(如自然语言指令)或环境(如代码执行结果)接收观察结果(输入),通过思维链(CoT)选择性地规划其行动,并以自然语言或环境向用户发出行动(输出)。

CodeAct采用Python代码来整合智能体与环境交互的所有操作。

在CodeAct中,向环境发出的每个动作都是一段Python代码,而智能体将收到代码执行的输出(如结果、错误)作为观察结果。

CodeAct作为强大工具使用框架的前景

研究中,作者进行了一项对照实验,以了解哪种格式(文本、JSON、CodeAct)更有可能引导LLM生成正确的原子工具调用。

本实验的表现,反映了LLM对相应格式的熟悉程度。

研究人员假设使用CodeAct调用工具是为模型使用工具的更自然的方式,模型通常在训练期间广泛接触代码数据。

对于大多数LLM,即使在其控制和数据流强度被削弱的原子操作(简单化的工具使用场景)中,CodeAc也能实现相当或更好的性能。

与闭源LLM相比,CodeAct的改进在开源模型中更为突出。

此外,对于微调开源LLM来说,代码数据通常比专门JSON或文本工具调用格式更容易访问。尽管JSON始终弱于其他开源模型方法,但它在闭源LLM中实现了不错的性能,这表明这些闭源模型可能已经针对其JSON功能进行了有针对性的微调。

这些结果表明,对于开源大模型来说,针对CodeAct进行优化是比其他方法更好的途径来提高其工具使用能力,因为由于在预训练期间广泛接触代码数据,它们已经表现出了良好的初始CodeAct能力。

CodeAct以更少的交互完成更多工作

除此之外,作者研究了LLM智能体是否可以,从需要复杂工具使用模式的问题上的代码控制和数据流中受益。

这里,研究人员策划了一个基准

来评估LLM解决通常需要多次调用多个工具的复杂任务的能力。

作者在表3中列出了全部结果,在图1中列出了可视化结果子集。

CodeAct通常具有更高的任务成功率(17个已评估LLM中有12个)。此外,使用CodeAct执行任务所需的平均交互轮数也较低。

比如,与次佳操作格式(文本)相比,最佳模型gpt-4-1106-preview实现了20.7%的绝对改进,同时平均减少了2.1个交互回合。

然而,就CodeAct的绝对性能而言,开源和闭源LLM之间仍存在显著差距,最佳开源模型的绝对性能提高了13.4%,而最佳闭源模型gpt-4-1106-preview的绝对性能提高了74.4%。

这可能是由于开源模型的任务解决能力较弱,无法在没有演示的情况下遵循复杂指令,这表明迫切需要改进开源 LLM,以在零样本设置下完成实际任务。

CodeAct受益于多轮交互和现有软件包

研究人员还展示了LLM智能体如何与Python集成,并使用现有软件在多轮交互中执行复杂的任务。

得益于在预训练期间学到的丰富的Python知识,LLM智能体可以自动导入正确的Python库来解决任务,而不需要用户提供的工具或演示。

如图3所示,CodeActAgent可以使用Pandas下载和处理表格数据,使用Scikit-Learn进行机器学习训练-测试数据分割和回归模型训练,并使用Matplotlib用于数据可视化。

此外,使用交互式Python解释器执行代码可以自动显示错误消息,帮助LLM智能体在多轮交互中自我调试其操作,并最终正确完成人类用户的请求。

构建开源LLM智能体

CodeAct所展示潜力的结果,激励研究人员构建一个开源的LLM智能体,可以通过CodeAct与环境交互,又可以使用语言与人类进行交流。

为了提高开源LLM的CodeAct能力,作者介绍了CodeActInstruct,这是一个包含智能体与环境交互轨迹的指令微调数据集。

如表4,是CodeActInstruct的数据组成,以及与先前工作的对比。

接下来,研究人员对Llama-27B和Mistral7B的CodeActInstruct和一般对话进行了微调,进而获得CodeActAgent

CodeActAgent在CodeAct任务中表现出色。

如表5所示,CodeActAgent(两种变体)在MINT的域内和域外子集上都比所有评估的开源LLM表现更好。

上,作者发现CodeActAgent(Mistral)的性能优于类似规模(7B和13B)的开源LLM,甚至达到了与70B模型相似的性能。

令人惊讶的是,Llama-2变体没有观察到任何改进。

CodeActAgent概括为文本操作。

当对域外文本操作进行评估时,从未针对文本操作进行过优化的CodeActAgent (LLaMA2,7B) 实现了与对文本操作进行显式调整的AgentLM-7B相当的性能。

天玑820芯片

在表5中,还发现CodeActAgent保持或提高了一般LLM任务的性能。

在表5中,研究人员还发现CodeActAgent(两个变体)在测试的一般LLM任务中表现更好,除了CodeActAgent(Mistral-7B)在MMLU上略有下降。

参考资料:

https://twitter.com/xingyaow_/status/1754556835703751087


返回网站首页

本文评论
小米Poco F5 Pro真机图片曝光:有白色配色可选,后置三摄模组设计「小米pocof2pro参数」
小米旗下品牌 Poco 即将发布全新的 Poco F5 系列,而其中 Poco F5 Pro 的真机实拍图已经曝光。据 GIZMOCHINA 报道,Poco F5 Pro 将提供纯白配色可选,采用三摄模组设计,镜头呈竖排...
日期:04-09
剧版《三体》高热开播:收视率蹿升至第一、破腾讯视频记录「三体 电视剧杀青」
杀青两年后,《三体》电视剧版终于正式开播,台网同步上线,热度也迅速攀升。在动画版惨烈翻车之后,剧版《三体》似乎要上演奇迹。据灯塔专业版,截至1月15日18时30分,《三体》的舆情...
日期:01-16
艺术家训练波士顿动力机器狗作画 并参加大型画展_波斯顿机器狗 开源
4月10日 消息:波士顿动力机器狗不仅具备走路、翻转、跳跃等技能,还会绘画进行艺术创作了。AMD A10 7860K著名艺术家 Agnieszka Pilat 正在训练三只波士顿动力机器狗来绘画,为...
日期:04-10
高通携手诺基亚贝尔首次实现基于商用芯片的端到端5G 10Gbps下行传输速率里程碑
通信世界网消息(CWW)近日,在IMT-2020(5G)推进组的组织下,高通技术公司和诺基亚贝尔宣布,为支持5G-Advanced超高速场景需求,双方成功在外场环境利用商用芯片组,采用5G空口双连接技术...
日期:10-20
淄博烧烤几点关门「男子淄博烧烤摊醉酒闹事被秒带走 前后不到20秒」
4月17日,山东淄博(发布)消息,淄博一烧烤摊发生醉酒男子闹事事件,民警迅速赶到现场将其控制,“还没动手就被带走”,现场群众纷纷点赞。威马背后资本有网友称,上周五去淄博临淄品尝烧...
日期:04-19
油价拼命涨「男子油价上涨前6分钟加油被拒引热议 为等涨价:官方回应」
快科技1月4日消息,据国内媒体报道称,四川一男子遇到了这样的囧事,涨价前6分钟加油被拒。四川泸州一男子发视频称,他在晚上11点54分到停车场加油站,被工作人员能告知在交接班,加不...
日期:01-04
4S店保修期内拒绝维修,快手快说车帮消费者成功维权获好评
  汽车出现质量问题,消费者第一反应就是到4S店寻求帮助,希望得到专业人员的支持来解决问题。但最近,长安汽车车主陈先生遇到了烦心事,汽车在正常保修范围内出现车漆龟裂的问...
日期:04-22
外媒称谷歌无限福利时代已过,大裁员中27名按摩师离职,员工心态会变
1月30日消息,自成立以来,谷歌在硅谷就显得有点“异类”,该公司并不专注于盈利,坚持永不向华尔街低头的誓言,并为员工提供令人艳羡的各种福利。然而,最新进行的大规模裁员似乎表明,...
日期:01-30
微软为 Windows 10 引入 AI 驱动的 Copilot 功能,扩大人工智能覆盖生态_微软ai叫什么
11 月 17 日消息:在过去的两年中,Windows 11 为大多数内置应用程序带来了重大更新,包括系统托盘、开始菜单、设置应用程序和任务栏等,这些都在每次更新中不断演进。然而,这些更...
日期:11-17
何小鹏:2023年在中国率先推出全自动驾驶_自动驾驶 小鹏
自动驾驶是未来出行的一大方向,甚至可以成为终极目标,不过就目前而言,全自动驾驶依旧是个遥不可及的梦。小米平板运行win10佳能5d2对比索尼a7在国内自动驾驶领域,除了有科技公司...
日期:01-29
漫长等待白色iPhone4传月底前在美上市(白色苹果4上市时间)
  4月14日消息,彭博社引述三位消息人士说法指出,苹果白色版本iPhone4经过10个月延迟后,近几周内将在美国上市。   一位知情者说,白色iPhone4预计4月底之前在美国上市。苹果...
日期:07-27
敦煌又双叒叕堵骆驼了 网友:走出了丝绸之路既视感_敦煌的骆驼
中秋国庆假期,全国多个景区出现客流高峰,摩肩接踵好不热闹。诺基亚电信5g设备合同apple watch ultra开箱甘肃敦煌旅游持续火热,鸣沙山月牙泉景区又现骆驼大队,有网友表示:走出了...
日期:10-02
通话降噪黑科技,漫步者DreamPods真无线耳机震撼亮相_漫步者dreampods有主动降噪吗
  出门在外,突然有工作电话或者语音接入,身处的嘈杂环境无法让对方听清自己的声音;正在游乐场陪小朋友游玩,忽然电话打来,孩子的吵闹声让通话尴尬不已……接听电话时不受周围...
日期:07-14
播放2021年中小学生暑假安全教育「各地中小学生开启暑假生活 请网友收下这份安全指南」
暑假来临,对于中小学生们来说,这是一个充满乐趣的时光。在这段时间里,他们可以尽情地游玩、学习、探索和成长。然而,暑假也存在一些安全隐患,我们必须时刻保持警惕,确保孩子们度过...
日期:07-14
终于用上新系统:OPPO Reno8 Pro开启ColorOS 13内测招募「oppo reno升级color os7」
9月末,ColorOS官方就曾发布预告,宣布OPPO Reno8系列将在10月获得ColorOS 13的适配与升级。人工智能 人民日报 李彦宏今天,OPPO正式开启了Reno8 Pro的ColorOS 13内测用户招募。...
日期:10-10
抖音电商 App 或将 10 月上线_抖音app哪年上线
  9 月 8 日消息 据新腕儿报道,从知情人士处获悉,抖音电商独立 App 将于 10 月份正式上线,该项目由抖音电商总裁康泽宇负责推动。   此前有消息称,抖音电商内部正在开发一...
日期:07-17
【爆料】颜值无敌,三星 Galaxy S23 系列爆料信息汇总「三星s22最新官宣消息」
2022 年 11 月 30 日消息,三星 Galaxy S23 和 Galaxy S23+ 现已出现在 FCC 认证公示名单中,从而确认了一些新机的关键细节,尤其是电池容量。其中三星 Galaxy S23 将配备 3785mA...
日期:12-01
奢批——供应链技术打造品质海外奢侈品购物平台_奢侈品供货平台
  近年来,随着中国经济的平稳增长,人们对奢侈品的追求越来越广泛,中国奢侈品消费趋势蒸蒸日上,80后和90后群体正在成为中国奢侈品市场发展的主要动力。据了解,2012-2018年间,全...
日期:07-14
生成模式包括四个方面「Gartner调查显示,生成式AI已成为企业面临的新兴风险」
本文概要:1. 生成式 AI 成为企业风险管理人员最关注的问题之一。2. 生成式 AI 的大规模可用性带来潜在风险,如知识产权、数据隐私和网络安全问题。3. 第三方生存能力是企业最...
日期:08-09
通用、福特在华销量大滑 福特CEO称要重新思考品牌定位
4月23日消息,在电动汽车加速发展之际,中国汽车制造商给福特和通用等美国汽车制造商带来的竞争压力越来越大。这些公司不得不重新思考自己在中国汽车市场的未来。春节iphone降...
日期:04-23