您的位置:首页 > 互联网

碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星

发布时间:2023-10-16 21:47:45  来源:互联网     背景:


新智元报道

编辑:桃子

【新智元导读】AutoGPT之后,AutoGen逆袭成功。

AI智能体热度,只增不减。

发布仅2周,微软、PSU和华盛顿大学等团队开发的智能体AutoGen瞬间登顶GitHub热榜,狂揽10k星。

这是一个让LLM智能体相互聊天,进而解决任务的框架,可定制、可对话,并允许人类无缝参与。


它还可以直接替代openai.Completion或openai.ChatCompletion作为增强型推理 API。

现在,你只需要几行代码,就能完成非常复杂的任务。

对此,研究人员还发布了一份关于AutoGen的43页技术报告。


论文地址:https://arxiv.org/pdf/2308.08155.pdf

接下来,一起来看看这个爆火项目背后的技术吧。

动嘴做任务

若想使用,首先得安装AutoGen。需要Python版本>=3.8版本,只需一步,非常简单。


pip install pyautogen


然后,就能上手用了。

比如,我想要一个股价可视化图,首先自定义一个编码智能体,能够下载数据并绘制图表。


然后,自定一个user proxy agents,去做跑代码、获取结果等任务。


最后一步,给定明确任务——绘制一份Meta和微软当前YTD股价图。


然后,两个智能体便开始对话,忙着去做表了。


当然了,不仅2个智能体,你还可以添加更多AI帮你干活,比如再自定义一个产品经理,让它去脑暴想法。


然后,使用它们一起查找最近一篇GPT-4的研究,以及关于其在软件中的应用。

接下来,3个智能体就开始密谋了。


以上的演示,仅是一个前菜。

美系混动和日系混动

根据技术报告,给出了通过AutoGen6个应用的构建,可以解决数学问题,检索增强型聊天、ALF聊天、多智能体编码、动态群组聊天、国际象棋对弈。


apple watch 7 对比apple watch 6

在自主解决数学问题上,研究人员通过AutoGen与AutoGPT、ChatGPT+Plugin、ChatGPT+Code Interpreter等进行了定性和定量评估。

通过在对MATH数据集中的2个数学问题评估中,每个LLM系统都在每个问题上测试了3次,只有AutoGen的胜率最高。


AutoGen框架

AutoGen背后的基本理念是,创建智能体,即由LLM(如GPT-4)驱动的编程模块。

这些智能体通过自然语言交互,以完成各种任务。


洗碗引发的家庭矛盾

智能体可以通过提示工程,和外部工具对进行定制和增强,使其能够检索信息或执行代码。

借助AutoGen,开发人员可以创建一个智能体生态系统,这些智能体可以专门从事不同的任务并相互协作。


这一生态系统的一个简化视图是,将每个智能体视为一个单独的ChatGPT会话,并有独特的系统指令。

例如,一个智能体可以作为编程助手,根据用户请求生成Python代码。另一个智能体可以是代码审查员,负责获取Python代码片段并排除故障。

第一个智能体的响应可以作为输入,传递给第二个智能体。

其中一些智能体甚至可以访问外部工具,这相当于ChatGPT插件,如Code Interpreter或Wolfram Alpha。

AutoGen在这里的作用就是,为创建这些智能体并使它们能够自动交互提供了必要工具。


上图中,说明了如何使用AutoGen对多智能体对话进行编程。

最上面的子图展示了AutoGen提供的内置智能体,有统一的对话界面,并且可以自定义。

中间的子图展示了使用AutoGen开发具有自定义回复功能的双智能体系统的示例。底部的子图展示了程序执行期间,双智能体系统产生的自动智能体聊天。

另外,多智能体应用可以是完全自主的,但也可以通过user proxy agents进行调节。

user proxy agents允许用户介入AI智能体之间的对话,来监督和控制他们的过程。在某种程度上,人类用户变成了监督多个人工智能团队的团队领导者。


user agents适用于智能体框架必须做出敏感决策,并需要用户确认的应用程序,比如购买或发送电子邮件。

当智能体开始向错误的方向发展时,用户还可以帮其指引方向。例如,用户可以从最初的应用程序构想开始,在智能体的帮助下,在开始编写代码时逐步完善构想,添加或修改功能。

AutoGen的模块化架构,还允许开发人员创建可重复使用的通用组件,这些组件可以组合在一起,快速构建自定义应用程序。

有了多个AutoGen智能体,就可以协作完成复杂的任务。

假如你需要编写特定任务的代码,直接交给编码助理智能体。

对于用多个智能体编码的整个流程框架如下。


它可以生成并返回代码,然后user agents可以使用代码执行模块对代码进行验证。

然后,两个人工智能智能体可以一起排除代码故障,并生成最终的可执行版本,人类用户可以在任何时候打断或提供反馈。

这种协作方法可以显著提高效率。微软称,AutoGen可以将编码速度提高多达4倍。


此外,AutoGen还支持更复杂的场景和架构,比如LLM智能体的分层排列。

苹果13是几号发布的

再比如,群组聊天管理智能体可以控制多个人类用户和LLM智能体之间的对话,并根据一系列规则在它们之间传递信息。


最后,研究人员还拿当前流行的智能体进行了对比,AutoGen的优势在于能够构建基础设施,允许灵活的对话模式,能够执行LLM生成的代码。

甚至,还可以让人工参与系统的执行过程。


项目作者

Chi Wang是这项研究的通讯作者,现任微软研究院首席研究员,目前的研究重点是LLMOps。

除了创建AutoGen开源库,他也创建了一个用于自动机器学习和调整的快速库FLAML,在微软内外被广泛使用,例如在Azure、Microsoft 365、Microsoft Fabric和Visual Studio中。

他曾在伊利诺伊大学香槟分校(UIUC)计算机科学系取得了博士学位,并在2015年获得SIGKDD数据科学/数据挖掘博士论文奖。

他曾在清华获得计算机科学学士学位。


网友上手体验

有网友通过AutoGen创建了一个博客写作智能体,并且还没有超过GPT4的最大/最小token限制。

它们大部分时间都在闲逛,聊着计划......AGI成真。


还有网友创建了一个人工智能治疗师智能体与人工智能角色的对话,所有脚本均由AI编辑生成。



为了验证概念,还有人用AutoGen创建了一个自我改进的智能体——AgentXP。

它让我看到,很快它们就会自己编写。在它开始让我的电脑震动之前,已经自主运行了10次卷积代码。输出结果远远超出了我的预期。


使用AutoGen智能体自动生成并运行代码,以创建细胞原子缩时摄影。


参考资料:

https://venturebeat.com/ai/microsofts-autogen-framework-allows-multiple-ai-agents-to-talk-to-each-other-and-complete-your-tasks/

https://github.com/microsoft/autogen


返回网站首页

本文评论
腾讯财报背后的危险信号_腾讯发布财报
出品|虎嗅商业消费组作者|黄青春题图|视觉中国当市场以为 2022Q1 是腾讯( 0700.HK )上市以来最差财报(营收停滞、净利润腰斩)时,更浓的悲观情绪弥漫在腾讯 2022Q2 财报里。8 月 17...
日期:08-20
神预言!李国庆称签约孟羽童保底要400万 辞职是董明珠不放权
快科技5月12日消息,不管外界是不是预料到了,至少李国庆语言再次验证,孟羽童在个人微博发视频回应从格力离职。孟羽童表示:我已经从格力顺利毕业啦。我觉得无论是我还是大家,经历...
日期:05-12
知乎回应亿欧创始人黄渊普“炮轰”:欢迎用户通过举报途径反馈给我们
凤凰网科技讯6月20日消息,亿欧创始人黄渊普在朋友圈发文怼知乎创始人周源:知乎的创始人周源是个傻X么?对此,知乎回应:知乎有完善的社区治理机制,我们反对编造不实信息、恶意诽...
日期:06-20
iphone13分期免息吗「iPhone 13只要4388了 分期免息」
今年双11的促销格外火爆,并且将延长到20日,现在iPhone 14和iPhone 13全系都有着不错的价格。首先是iPhone 13,现在立减800后到手只要4388元了,虽然是上一代旗舰但是仍然是A15芯...
日期:11-16
小米对大模型和AIGC怎么看?雷军发文回应「小米 模型」
凤凰网科技讯 4月15日消息,雷军于昨晚在微博发文首次谈到了小米对大模型和AIGC的看法。雷军表示,小米在AI领域已经耕耘多年,有AI实验室、小爱同学、自动驾驶等团队,对于大模型,我...
日期:04-15
天猫双11时间定了!10月24日晚8点开启_天猫双11是几月几日
快科技10月14日消息,据天猫发言人”官方公众号最新公告,天猫双11将于10月24日晚8点正式开启。官方并没有公布出具体的玩法,只是提到几个关键词:不止满减、直降、买贵必赔、史上...
日期:10-15
游戏企业一年倒闭2万家_中华网申请破产保护 旗下游戏集团称仍正常运营
  10月9日消息,首家在纳斯达克交易所上市的国内互联网公司中华网集团(CDC Corporation)本周三申请破产保护,旗下子公司中华网游戏集团(CDC Games)今日正式发布公告称,中华网...
日期:07-23
腾讯回合手游《妖精的尾巴:魔导少年》5月31日关停中国区服务器「妖精的尾巴魔导少年开服时间表」
IT之家 4 月 3 日消息,腾讯自研回合手游《妖精的尾巴:魔导少年》官方近日发布公告,称由于业务发展上的调整,将在 5 月 31 日 12 点正式关停中国区服务器。为了表达歉意,《妖精的...
日期:04-03
百度2020春招启动“空中宣讲会+招聘网课” 无接触组合拳助力学子就业
  云复工、云开课,在疫情影响之下,原本火热的“金三银四”招聘季也加入了“云”行列。随着百度2020春季实习生招聘启动,3月16日晚,本季春招重头戏——空中宣讲会精彩开讲,来自...
日期:05-10
美国「黑五」购物节在线销售额创纪录达91亿美元「美国黑五购物指南」
11月27日消息:据零售商网站销售数据跟踪和分析机构,Adobe 数据和分析部门 Adobe Analytics称,今年「黑色星期五」期间,美国消费者的线上购物支出达到创纪录的91.2亿美元。领188...
日期:11-28
六项第一,全线领跑!科大讯飞618超级战报出炉
  火爆的618年中大促落下帷幕,在To B-To C双轮驱动战略持续推进下,科大讯飞C端产品表现十分抢眼,根据京东、天猫双平台榜单的显示,科大讯飞6月18日销售额同比增幅260%,一举斩...
日期:04-01
美亚柏科发布 “天擎” 公共安全大模型一体机
9月11日 消息:美亚柏科在中国(厦门)国际警安法务科技展览会上发布了国内首个 “天擎” 公共安全大模型一体机。宝马i7和7系这一装备基于人机自然语言交互、OCR 识别、语义分析...
日期:09-11
爱优腾收费贵、限制多 网友奉上免费视频攻略:全靠Intel
最近几年,国内的视频平台不仅收费越来越贵,而且限制也多了起来,爱奇艺的投屏功能从4K缩水到480p就是一例,付费用户摊上了也很糟心,甚至逼得有些网友逆反,开始看盗版。这种方式也不...
日期:01-16
豆瓣跌至3.9分!《三体》动画停播两周后复播 第12集上线「三体动画上映」
改编自作家刘慈欣的系列同名长篇科幻小说,由艺画开天联合出品承制的《三体》动画,在停播两周后正式复播,最新第12集已在B站上线。截稿前,《三体》动画豆瓣评分为3.9,超15万豆瓣用...
日期:03-05
哪吒之魔童降世新年版_《哪吒之魔童降世》全网正式上线
  10月11日消息 今日下午16:00,电影《哪吒之魔童降世》全网同步上线。   经验证,目前,《哪吒之魔童降世》已登陆爱奇艺、腾讯视频、优酷视频、哔哩哔哩等平台。需要注意的...
日期:08-03
降低网络安全风险 BSA丨软件联盟在行动
9月17日至23日,以“网络安全为人民,网络安全靠人民”的2018年国家网络安全宣传周博览会......
日期:09-26
曝苹果正在开发更便宜的混合现实头显 AR眼镜项目暂停
苹果尚未宣布其首款混合现实头显,但我们已经听到了很多关于该公司在这款新产品方面的长期计划的传言。该信息一直在提供有关苹果新款AR / VR头显的多个细节,周二报道称,苹果的...
日期:01-20
新浪高管集体身家大涨4倍 微博释放市场想象空间(新浪ceo微博)
  正当全球股市纠结于美国评级下调预期、欧债危机时,在纳斯达克上市的新浪网股价却节节攀升,连续多个交易日走高,屡创历史新高。   截至前一交易日,新浪继续大涨5.38%,报收1...
日期:07-27
成本飙涨,头部入局,商业价值爆发:短剧不再是「小生意」
声明:本文来自微信公众号“深响”(ID:deep-echo),作者:深响,授权转载发布。“之前短剧群演都按天算钱,现在在青岛按场算钱,每位群演每场的价格已经涨到千元以上了。”MCN机构古麦嘉...
日期:04-18
从“优秀士兵”到“销售标杆”, 淘车小哥以口碑建立信任
  对于销售行业而言,洞察客户需求并赢得信任是成功路上的关键。作为淘车二手车昆明店的销售标杆,小王服务过的一些客户,已经成为了生活中的朋友。   以真诚服务打消顾...
日期:07-14