您的位置:首页 > 互联网

清华大学3d全景展示「清华系面壁智能给大模型接入16000+真实API,开源ToolLLM效果直逼ChatGPT」

发布时间:2023-08-08 16:06:38  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】ChatGPT能力解禁,还是加入插件功能后,性能得到了强化。所有大模型皆是如此。面壁智能给大模型接入16000+真实API,性能匹敌ChatGPT。

这段时间,开源大语言模型(LLM)可谓是进步飞快,像是 LLaMA 和 Vicuna 等模型在各种语言理解、生成任务上展现了极佳的水平。

然而,当它们面对更高级别的任务,例如根据用户指令使用外部工具(API)时,仍然有些力不从心。

为了解决这个问题,面壁智能联合来自 TsinghuaNLP、耶鲁、人大、腾讯、知乎的研究人员推出 ToolLLM 工具学习框架,加入 OpenBMB 大模型工具体系「全家桶」

清华大学模型

论文链接:https://arxiv.org/pdf/2307.16789.pdf

数据与代码链接:https://github.com/OpenBMB/ToolBench

开源模型下载链接:https://huggingface.co/ToolBench

ToolLLM 框架包括如何获取高质量工具学习训练数据、模型训练代码和模型自动评测的全流程。

其中,作者构建了 ToolBench 数据集,该数据集囊括16464个真实世界 API。

目前 ToolLLM 的所有相关代码均已开源,以下是作者训练的 ToolLLaMA 的与用户交互对话并实时进行推理的演示:

ToolLLM 框架的推出,将有助于促进开源语言模型更好地使用各种工具,增强其复杂场景下推理能力。

不仅可以协助研究人员更深入地探索 LLMs 的能力边界,也为更广泛的应用场景敞开了大门。

ToolLLM 研究背景

工具学习的目标是让LLM能给定用户指令与各种工具(API)高效交互,从而大大扩展LLM的能力边界,使其成为用户与广泛应用生态系统之间的高效桥梁。

清华大学模型

大模型工具学习范式

尽管已经有一些工作(例如Gorrila、APIBank等)探索了如何让LLM掌握API调用能力,这些工作仍然存在以下局限性:

1.有限的API:很多研究没有使用真实世界的API(如RESTful API),存在API范围有限、多样性不足的问题

2.场景受限:先前工作大多集中在单一工具的使用,而实际场景中可能需要多个工具协同工作来完成复杂任务;此外,现有研究通常假设用户提供与指令相关的API,但现实中可供选择的API可能非常多,用户难以从中高效选择

3.模型规划和推理能力不足:现有模型推理方法如CoT、ReACT过于简单,无法充分利用LLM的潜力来处理复杂指令,因而难以处理复杂任务

ToolLLM 研究框架

为了激发开源LLM的工具使用能力,该研究提出了ToolLLM,一个包括数据构建、模型训练和评估过程的通用工具学习框架。

作者首先收集高质量的工具学习指令微调数据集ToolBench,随后对LLaMA进行微调得到ToolLLaMA,最后通过ToolEval评估ToolLLaMA的工具使用能力。

清华大学全面屏壁纸

ToolLLM数据收集、模型训练、性能评测流程

ToolBench数据集

ToolBench 的构建完全由最新的 ChatGPT(gpt-3.5-turbo-16k)自动化完成,无需人工标注。

在 ToolBench 上训练出来的模型具备极强的泛化能力,能够直接被应用到新的 API 上,无须额外训练。

下表列出了 ToolBench 与之前相关工作的对比情况。ToolBench 不仅在多工具混合使用场景独一无二,且在真实 API 数量上也一骑绝尘。

清华大学模型

ToolBench与之前相关工作的对比情况

ToolBench 的构建包括三个阶段:API 收集,指令生成和解路径标注:

01API收集

API 收集分为 API 爬取、筛选和响应压缩三个步骤。

API 爬取:作者从 RapidAPI Hub 上收集了大量真实多样的 API。RapidAPI 是一个行业领先的 API 提供商,开发者可以通过注册一个 RapidAPI 密钥来连接各种现有 API。所有 RapidAPI 中的 API 可以分为49个类别,例如体育、金融和天气等;每个类别下面有若干工具,每个工具由一个或多个 API 组成。

新特新能源汽车性能如何

API 筛选:作者对在 RapidAPI 收集到的10,853个工具(53,190个 API)基于能否正常运行和响应时间、质量等因素进行了筛选,最终保留了3,451个高质量工具(16,464个API)。

API 响应压缩:某些 API 返回的内容可能包含冗余信息导致长度太长无法输入 LLM,因此作者对返回内容进行压缩以减少其长度并同时保留关键信息。基于每个API的固定返回格式,作者使用 ChatGPT 自动分析并删除其中不重要信息,大大减少了 API 返回内容的长度。

02 指令生成

清华大学全面屏壁纸

RapidAPI层次架构和工具指令生成示意图

为了兼顾生成高质量的指令和保证指令能用 API 完成,作者采用自底向上的方法进行工具指令生成,即从收集的 API 入手,反向构造涵盖各种 API 的指令。具体而言,作者首先从整个 API 集合中采样各种各样的API 组合,接着通过 prompt engineering 让 ChatGPT 构思可能调用这些 API 的指令。

其中 prompt 包括了每个 API 的详细文档,这样 ChatGPT 能够理解不同 API 的功能和 API 之间的依赖关系,从而生成符合要求的人类指令。具体的采样方式分为单工具指令(指令涉及单工具下的多个 API)和多工具指令(指令涉及同类或跨不同类的工具的多个 API)。

通过该方法,作者最终自动构造逾20万条合格的指令。

03 解路径标注

给定一条指令,作者调用 ChatGPT 来搜索(标注)一条有效的解路径(动作序列):{,...,} 。这是一个多步决策过程,由 ChatGPT 的多轮对话来完成。

在每个时间步 t,模型根据先前的行为历史和 API 响应预测下一步动作,即:

清华大学3d全景展示

其中表示真实的 API 响应。每个动作包括了调用的 API 名称,传递的参数和为什么这么做的「思维过程」。

为了利用 ChatGPT 新增的函数调用(function call)功能,作者将每个 API 视为一个特殊函数,并将其 API 文档放入 ChatGPT 的函数字段来让模型理解如何调用 API。

此外,作者也定义了「Give Up」和「Final Answer」两种函数标识行为序列的结束。

清华大学3d全景展示

DFSDT与传统模型推理方法的对比(左图),解路径标注流程示意图(右图)

在实际应用中,作者发现传统的 CoT 或 ReACT 算法在决策过程中存在错误累加传播和搜索空间有限的问题,这导致即使是最先进的 GPT-4在很多情况下也很难成功找到一条解路径,从而对数据标注形成了一定的障碍。

为解决这个问题,作者采用构建决策树的方式扩展搜索空间增加找到有效路径的概率。

同时,作者还提出了DFSDT 算法,让模型评估不同的推理路径并沿着有希望的路径继续前进,或者放弃当前节点并扩展一个新的节点。

DFSDT 于传统推理方法(ReACT)的性能比较

为验证 DFSDT 的效果,作者不仅基于 ChatGPT 比较了 DFSDT 与 ReACT 的差异,而且引入了更强的 baseline (ReACT@N)——通过进行多次 ReACT 推理直到找到一条合理的解路径。

如下图所示,DFSDT 在所有场景下的通过率(pass rate)显著更高,超越了两种 baseline。

此外,DFSDT 在更复杂场景下(I2,I3)的效果提升更大,这说明扩大搜索空间更加有助于解决复杂的工具调用任务。

清华大学全面屏壁纸

总而言之,DFSDT 算法显著提升了模型推理能力,增加了解路径标注的成功率。

最终,作者生成了12000+ 条指令-解路径数据对用于训练模型。

ToolEval 模型评估

为了确保准确可靠的工具学习性能评测,作者开发了一个名为 ToolEval 的自动评估工具,它包含两个评测指标:通过率(Pass Rate)和获胜率(Win Rate)。

更新了ios15.0.2

通过率是指在有限步骤内成功完成用户指令的比例;获胜率则基于 ChatGPT 衡量两个不同解路径的好坏(即让 ChatGPT 模拟人工偏好)。

清华大学3d全景展示

ToolEval评测工具排行榜

为了检验这种评估方式的可靠性,作者首先收集了大量人类标注结果,并且发现利用 ChatGPT 做自动评测与人类评判的一致性高达75.8%,这意味着 ToolEval 的结评测果与人类判断高度相似。

此外, ToolEval 的评测在多次重复时方差非常小(3.47%),小于人类的3.97%,这表明,ToolEval 的评测一致性超越了人类,更加稳定可靠。

ToolLLaMA 模型训练&实验结果

基于 ToolBench,作者微调 LLaMA7B 模型并得到了具备工具使用能力的 ToolLLaMA。

由于训练数据中存在十分多样的工具与指令,ToolLLaMA 学习到了非常强的泛化能力,能在测试中处理一些在训练期间未见过的新任务、新工具。

为了验证 ToolLLaMA 的泛化能力,作者进行了三个级别的测试:

1.单一工具指令测试(I1):评测模型解决面向单工具的在训练中未学习过的新指令

2.类别内多工具指令测试(I2):评测模型如何处理已经再训练中学习过的类别下的多种工具的新指令

3.集合内多工具指令测试(I3):考查模型如何处理来自不同类别的工具的新指令

作者选择了两个已经针对通用指令微调的 LLaMA 变体 Vicuna 和 Alpaca 以及OpenAI的ChatGPT 和 Text-Davinci-003作为 baseline。

对所有这些模型应用了更加先进的 DFSDT 推理算法,此外对 ChatGPT 应用了 ReACT。

在计算 win rate 时,将每个模型与 ChatGPT-ReACT 进行比较。下面两幅图总结了 ToolLLaMA 模型和其他模型比较结果:

清华大学屏幕

清华大学全面屏壁纸

根据上图显示,ToolLLaMA 在 pass rate 和 win rate 上显著优于传统的工具使用方法 ChatGPT-ReACT,展现出优越的泛化能力,能够很容易地泛化到没有见过的新工具上,这对于用户定义新 API 并让 ToolLLaMA 高效兼容新 API 具有十分重要的意义。

此外,作者发现 ToolLLaMA 性能已经十分接近 ChatGPT,并且远超 Davinci, Alpaca, Vicuna 等 baseline。

将API检索器与ToolLLaMA结合

在实际情况下用户可能无法从大量的 API 中手动推荐和当前指令相关的 API,因此需要一个具备 API 自动推荐功能的模型。为解决这个问题,作者调用 ChatGPT 自动标注数据并依此训练了一个 sentence-bert 模型用作 dense retrieval。

为了测试API检索器的性能,作者比较了训练得到的 API 检索器和 BM25、Openai Ada Embedding 方法,发现该检索器效果远超 baseline,表现出极强的检索性能。

此外,作者也将该检索器与 ToolLLaMA 结合,得到了更加符合真实场景的工具使用模型 pipeline。

清华大学全面屏壁纸

作者训练的API检索器和baseline方法的性能对比

工具学习扩展大模型能力边界

近年来,大模型在诸多领域展现出惊人的应用价值,持续刷新各类下游任务的效果上限。

尽管大模型在很多方面取得了显著的成果,但在特定领域的任务上,仍然存在一定的局限性。而这些任务往往需要专业化的工具或领域知识才能有效解决。

因此,大模型需要具备调用各种专业化工具的能力,这样才能为现实世界任务提供更为全面的支持。

清华大学模型

最近,新的范式大模型工具学习(ToolLearning)应运而生。

这一范式的核心在于将专业工具与基础模型的优势相融合,以在问题解决方面达到更高的准确性、效率和自主性,工具学习极大地释放了大模型的潜力。

清华大学3d全景展示

在应用方面,ChatGPT Plugins 的出现补充了 ChatGPT 最后的短板,使其可以支持连网、解决数学计算,被称为 OpenAI 的「App Store」时刻。然而直到现在,它仅支持部分OpenAI Plus用户,大多数开发者仍然无法使用。

为此,面壁智能之前也推出了工具学习引擎BMTools,一个基于语言模型的开源可扩展工具学习平台,它将是面壁智能在大模型体系布局中的又一重要模块。

研发团队将各种各样的工具(例如文生图模型、搜索引擎、股票查询等)调用流程都统一到一个框架上,使整个工具调用流程标准化、自动化。

开发者可以通过 BMTools,使用给定的模型(ChatGPT、GPT-4)调用多种多样的工具接口,实现特定功能。此外,BMTools 工具包也已集成最近爆火的 Auto-GPT 与 BabyAGI。

未来,团队还将围绕大模型工具学习有更多发布,敬请大家期待!

BMTools 工具包:

https://github.com/OpenBMB/BMTools

工具学习综述链接:

https://arxiv.org/abs/2304.08354

工具学习论文列表:

https://github.com/thunlp/ToolLearnirgPapers


返回网站首页

本文评论
谷歌人工智能机器人对话「比ChatGPT还好用?谷歌医疗聊天机器人几乎与医生表现相当」
财联社7月9日讯(编辑 马兰)谷歌的Med-PaLM 2人工智能模型据称自4月以来一直在一些医院中进行测试。该工具旨在回答有关医疗信息问题,是PaLM 2模型的变体,PaLM 2则是谷歌人工智能...
日期:07-10
谷歌Bard回答翻车“砍掉”自己:称服务已于3月21日关闭_谷歌bate
类似ChatGPT、Bard这样的生成式人工智能,在回答问题时会出现错误已经不是什么新鲜的事情,但近日,谷歌Bard依旧出现了一次让人哭笑不得的翻车”。根据网友Juan Buis的说法,当他询...
日期:03-28
联想y450「联想y450升级」
联想Y450是一款笔记本电脑,属于联想公司旗下的IdeaPad系列产品之一。以下是关于联想Y450的详细信息。硬件配置联想Y450采用了英特尔酷睿2双核处理器,子弹头设计的外观,宽屏15.6...
日期:05-31
gpd win3预购_GPD WIN 3 游戏掌机开启预售:i5-1135G7+16GB 内存,4799 元
  2 月 26 日消息 根据 GPD 掌机官方的消息,全球首款玩主流 3A 游戏大作的滑盖直板掌机 GPD WIN 3 开启预售。   2020 年 12 月 GPD 宣布了全球首款 Windows 10 直板掌...
日期:07-16
亚马逊实时AI编程助手CodeWhisperer正式免费开放_亚马逊源码
4月18日 消息:近日,亚马逊云科技宣布,实时AI编程助手Amazon CodeWhisperer正式可用,同时推出的还有供所有开发人员免费使用的个人版(CodeWhisperer Individual)。据悉,Amazon Code...
日期:04-18
《元宇宙诸神俱乐部》系列数字藏品热销,现在年轻人更在乎“数字世界”里的群体认同价值
近日,在飞扬元宇宙平台上的一款艺术家原创数字藏品火了。这款名为《元宇宙诸神俱乐部(Metaverse Immortals Club)》的系列数字藏品盲盒,凭借其精美的插画设计、新颖的世界观和角...
日期:08-01
三星手机galaxy s4「s4三星手机」
S4三星手机是一款由韩国电子巨头三星公司于2013年发布的智能手机。这款手机以高清屏幕、强大的性能和多项独特的功能为特点,成为当时市场上最受欢迎的手机之一。S4三星手机的...
日期:05-31
苹果 11 月开始将 iPhone 5c 和 iPad mini 3 列为过时产品_ipad mini5是哪一年的产品
10月9日消息:苹果公司在2020年10月将iPhone5c标记为陈旧产品,这意味着该公司及其服务提供商只能为该产品提供某些维修服务,但要视零件供应情况而定。iphone13磁吸充电宝好吗图...
日期:10-13
对话荣耀方飞:Magic5很多地方已经超越华为「荣耀副总裁方飞简历」
崔玉贤/文3年,3代Magic,荣耀重塑荣耀。荣耀Magic5系列发布会前后,荣耀产品线总裁方飞揭秘了这款产品背后的故事以及大众这些年来对于荣耀的“误解”。在方飞看来,荣耀Magic5系列...
日期:03-08
Meta宣布美国所有Facebook和Instagram用户均可分享NFT_instagram是facebook的吗
DoNews9 月 30 日消息(郭睿琦)Meta 公司今天宣布,在美国境内所有 Facebook 和 Instagram 用户都可以连接他们的钱包,并分享他们所持有的 NFT 资产。爱马仕直营美国的所有用户还...
日期:10-02
新iPhone SE将用OLED屏 3000多元「苹果新款se屏幕尺寸多大」
近日有全新的iPhone SE新款的消息,新机将在明年上市,第四代iPhone SE的设计将与去年发布的iPhone 14标准版机型相似,暗示第四代iPhone SE将配备一块6.1英寸的OLED显示屏和Face...
日期:06-30
AI会取代人类吗?李彦宏:机器变不成人 也没必要「ai技术最终能取代人的地位吗」
快科技5月26日消息,最近一段时间AI可以说是已经影响到全球各行各业了,也已经取代元宇宙成为新的风口。目前不止有ChatGPT,国内还有一大批类似的大模型产品问世,比如百度的文心一...
日期:05-27
华为发布5G智能核心网创新实践,加速5G商业成功_华为发布5g智能核心网创新实践,加速5g商业成功率
通信世界网消息(CWW)在2023 MWC上海期间,华为举行产品与解决方案创新实践发布会,面向全球发布5G智能核心网创新实践,助力运营商打造智简柔性网络,激发业务创新,使能体验经营,加速5G...
日期:06-29
云天励飞助力龙岗区打造智慧园区系统 普惠金融平台正式上线
  12月27日下午,龙岗区智慧园区系统、龙岗区普惠金融服务平台上线仪式在龙岗智慧中心顺利举行。龙岗区政府督办专员曾革新,区工业和信息化局、国资局、政务服务数据管理局...
日期:04-12
理想汽车成为首家达成40万辆交付的新势力车企「理想汽车成为首家达成40万辆交付的新势力车企」
7月5日 消息:理想汽车公布数据称,近期于北京交付中心完成了第40万辆车的用户交付。成为首家达成40万辆交付的新势力车企。理想汽车表示,2023年上半年,理想汽车向用户共计交付新...
日期:07-05
redmi pad 5g发布了吗?「Redmi Pad将于10月4日在国际市场同步推出」
小米将于10月4日发布配备2亿像素摄像头的小米12T系列,今天,该公司宣布它还将在同一天推出一款新的平板电脑,被称为Redmi Pad。小米12T系列海外版将在德国慕尼黑率先发布,而Redmi...
日期:10-01
看球最好的电视「看球大屏电视推荐 这些家电家居产品正在京东618热销」
自阿根廷队在世界杯夺冠之后,梅西与阿根廷队的话题热度始终不减。 6 月 10 日,“球王”梅西抵达中国,开启他个人职业生涯的第七次中国行。同时在 6 月 15 日,阿根廷队还将在北京...
日期:06-14
魔兽国服关了114天 暴雪选择躺平:工作室脚本泛滥 玩家遭殃「暴雪停止开发魔兽世界」
快科技5月18日消息,魔兽世界等游戏国服已经关了114天了,马上就4个月整了,绝大多数人放弃了,少部分玩家转战亚服,然而暴雪在亚服管理上简直一塌糊涂,工作室严重影响了玩家体验,之前...
日期:05-18
AI要登月?上百度世界大会2021看吴伟仁院士怎么说
  百度世界大会2021明天09:30正式上线!   今天,百度官方发布了一条消息,中国探月工程总设计师,中国工程院院士吴伟仁将现身百度世界大会,与李彦宏对谈AI在航天领域的应用,并...
日期:11-23
小米13Ultra 1TB白色16GB 1TB版本今天开售:首发7299元「小米13ultra最新消息」
5月4日消息,小米官方今日宣布,小米13 Ultra白色16GB 1 TB版本今天开售,首发价7299元。小米13Ultra共提供橄榄绿、黑色、白色3款配色,采用第二代纳米科技皮、Unibody金属框架机...
日期:05-04