您的位置:首页 > 互联网

表格数学推理准确率达98.78%!UCLA推出全新变色龙推理框架| NeurIPS 2023

发布时间:2023-12-12 21:42:18  来源:互联网     背景:


新智元报道

编辑:LRS 好困

【新智元导读】UCLA等机构研发的Chameleon框架,在AI界引起广泛关注,获得超过100次学术引用,AlphaSignal评选其为周最佳论文。

在自然语言处理任务中取得显著成就的大型语言模型(LLMs)尽管表现出色,但在实时信息获取、外部工具利用和精确数学推理方面仍显不足。

为了应对这些挑战,来自UCLA等机构的研究人员打造了全新的Chameleon框架,其独特的即插即用模型融合了多种工具,包括LLMs、视觉模型、网络搜索引擎、Python功能及基于规则的模块。


项目链接:https://chameleon-llm.github.io/

论文链接:https://arxiv.org/abs/2304.09842

代码链接:https://github.com/lupantech/chameleon-llm

解读:https://www.youtube.com/watch?v=EWFixIk4vjs&ab_channel=WorldofAI

Chameleon的核心在于通过LLM规划器生成自然语言程序,从而找到最佳工具组合,并依次执行这些工具来得出结论。

在科学问答任务ScienceQA和表格数学推理任务TabMWP上,Chameleon展示了其卓越性能,其中在ScienceQA中,模型以86.54%的准确率超越了现有的少样本模型,而在TabMWP中更是达到了惊人的98.78%准确率,远超现有模型。

特斯拉市值蒸发2800亿

Chameleon之名源于变色龙的适应和融合能力,象征着大型语言模型在执行外部工具组合推理任务时的多功能性和适应性。

自发布以来,Chameleon引起了广泛关注,GitHub项目收藏近1000次,学术界引用近100次。在1682篇AI论文中脱颖而出,被AlphaSignal评为周最佳论文。


此外,一位著名学术博主在YouTube上深入解析了Chameleon,视频播放量已超过1万次。


源自变色龙的灵感

在实际应用中,我们经常会面临各种类型和领域的不同工具,比如来自Hugging Face和GitHub的开源模型、像谷歌和必应这样的网络搜索服务、维基百科等知识库、生成式人工智能模型、Python函数、语言翻译和图像生成等等。

一个引人注目的问题是,如何将这些多样的工具与大型语言模型相结合,以解决复杂的任务。

答案就在于工具增强(Tool-Augmented)的大型语言模型或大型语言模型代理(LLM Agent)!

通过规划和整合多个工具和资源到大型语言模型框架中,我们可以创建一个更加多功能和强大的系统,以便处理各种领域的复杂任务。


因此,UCLA的研究人员提出了Chameleon-变色龙推理框架。Chameleon的灵感来自自然界中的变色龙,就像变色龙能够通过改变皮肤颜色来适应周围环境一样,Chameleon模型可以根据不同的输入问题,组合和使用各种不同的工具来完成相应的复杂推理。

例如,在解决多模态任务ScienceQA时,Chameleon模型会为不同的问题生成不同的程序,以灵活组合各种工具,并按照一定的顺序执行它们,从而最终得出答案。这种灵活性和适应性使Chameleon成为解决复杂任务的强大工具。


Chameleon模型与相关工作的比较

与相关工作相比,Chameleon模型在工具多样性和调用灵活性方面具有显著优势。首先,Chameleon支持LLM模型、视觉模型、网络搜索引擎、Python函数以及基于规则的模块,这些不同工具之间能够通过自然语言进行通信。

与此不同,已有的工作如Toolformer仅支持少量工具,如问答、计算器、机器翻译、WikiSearch和日历查询,而HuggingGPT仅适用于视觉处理相关的模型。

其次,Chameleon模型允许以类似自然语言的方式生成不同工具的调用组合,无需设计复杂格式的程序。而在已有的工作中,如ViperGPT,则需要生成精心设计、符合特定格式的Python代码,这对编程水平有限的用户来说并不友好。


基于LLM的工具规划器

Chameleon模型与以往方法的不同之处在于其能够合成各种工具的组合,以适应不同类型的推理问题。

该模型由两个主要组成部分构成:工具箱(Module Inventory)和LLM规划器(LLM Planner)。工具箱包含了多种工具,使Chameleon模型具备了多样性和多维度的推理能力。

LLM规划器基于大型语言模型实现,可以根据不同的输入问题生成自然语言形式的程序,从而实现对工具箱中的工具进行组合和调用。


LLM规划器的实现非常简洁高效,充分利用了大型语言模型的提示学习(Prompt Learning)和语境学习(In-Context Learning)能力。LLM规划器的输入提示描述了需要生成不同工具组合序列的情境,同时定义了工具箱中的所有工具。


LLM规划器的提示还提供了一些语境示例,以指导大型语言模型如何根据输入信息生成正确的程序。


基于这些描述和示例,大型语言模型,如ChatGPT和GPT-4,能够学习如何针对新的输入问题生成适当的程序,以组合和调用工具箱中的不同工具,从而完成涉及复杂推理的输入问题。

Chameleon模型的一大优势在于为用户提供了丰富的灵活性,只需提供语言描述,就能让大型语言模型与外部工具协同工作,覆盖多种类型和技能维度。此外,它具有即插即用的特性,允许用户无缝更新底层大型语言模型、添加新工具,并适应新的任务。

Chameleon工具箱的多样技能

为满足多样的推理需求,Chameleon的工具箱中包含了各种不同技能的工具,包括图像理解、知识理解、数学推理、表格推理和问答。


基于LLM的工具实现

需要强调的是,Chameleon的工具箱中包括了基于LLM(大型语言模型)的工具。

以知识检索(Knowledge Retrieval)工具为例。在帮助系统解决复杂问题时,检索额外的知识至关重要。

这个工具模块利用大型语言模型强大的生成能力来获取特定领域的知识。这在处理专业领域问题,如科学和数学时尤为有用。


举例来说,如果问题涉及理解税表,这个模块可以生成与税务相关的背景知识,这对后续的推理步骤至关重要。

最近的研究表明,程序辅助方法可以提高大型语言模型在逻辑和数学推理方面的能力。

因此,工具箱中还包括了程序生成(Program Generator)工具,它利用大型语言模型的语境学习和代码生成能力,结合输入问题,生成可以有效解决给定问题的Python程序。


此外,还可以构建解答生成(Solution Generator)工具,它能指导大型语言模型充分利用输入问题、上下文信息和历史工具执行的中间结果,生成多步且详细的解答。

Chameleon模型的评测表现

Chameleon模型在两个复杂的多模态推理任务上进行了实验评估,分别是ScienceQA和TabMWP。

ScienceQA,即科学问答,是一个涵盖广泛科学主题的多模态问答基准测试。如下图的例子所示,回答ScienceQA中的问题需要使用各种知识、工具和技能,例如图像描述、文本检测、知识检索、在线资源搜索,以及视觉推理。这要求模型具备包括视觉和语言推理在内的组合能力。


Chameleon模型中的LLM规划器能够合成程序,以调用不同的工具组合来回答ScienceQA中不同类型的问题。

例如,在下图所示的第一个例子中,Chameleon模型识别到输入图像包含广告文本,因此调用了文本检测(Text Detector)工具来理解图像中的文字。

随后模型调用知识检索(Knowledge Retrieval)工具来检索问题所涉及到的术语persuasive appeal的相关背景知识。最后,模型根据输入问题和执行之前工具得到的中间结果得出最终的答案。

第二个问题涉及到识别图像中的动物并回答环境适应性的问题。

Chameleon模型调用了图像描述(Image Captioner)工具来理解图像中的动物,并通过调用必应搜索(Bing Search)来获取相关的学科背景知识,最终的答案充分利用了这些信息。


详细的评测结果也充分证明了Chameleon模型在ScienceQA任务上的有效性。


Chameleon模型在表格推理任务TabMWP中同样展现了其出色的灵活性和有效性。TabMWP是一个基于表格上下文的数学推理任务,要求模型理解多种形式的表格并执行精确的数值计算。


在下图的第一个示例中,涉及对计数表格进行数学推理。Chameleon模型调用知识检索(Knowledge Retrieval)工具来理解如何计算列表的中位数。然后,它依赖于程序辅助工具进行精确计算。

第二个示例需要在较大的表格上下文中定位到一个单元格。

为此,Chameleon模型调用工具箱中的行查找(Row Lookup)工具来准确定位表格中的相关行。接下来,Chameleon模型只需理解简化的表格,然后生成最终的自然语言答案,而无需生成Python代码来增强数学推理。


类似地,Chameleon模型在TabMWP任务中也展现了强大的推理能力。


下图突显了这两个任务中的关键基准模型。在ScienceQA任务中,Chameleon模型与GPT-4合作,实现了86.5%的准确率,是当前最优秀的few-shot模型。

同样地,Chameleon在TabMWP数据集上实现了98.8%的准确率,领先最先进模型17.0%的性能。


消融实验揭示Chameleon的关键模块

研究人员进行了消融实验,分析了当禁用生成程序中的关键模块时,Chameleon模型的准确率下降情况。

实验结果显示,知识检索(Knowledge Retrieval)模块在两项任务中都扮演了重要的角色。

对于ScienceQA任务,特定领域的工具,如必应搜索(Bing Search)和与视觉相关的工具,起到了关键作用,而在TabMWP任务中,常用的程序生成(Program Generator)模块对最终性能的影响也非常显著。


Chameleon模型的工具规划能力

不同工具的使用比例

通过可视化Chameleon模型生成的程序中不同工具的使用比例,可以观察到使用不同的语言模型时,LLM规划器表现出不同的规划行为。

通常情况下,ChatGPT对于使用或不使用某些工具有较强的偏好。例如,在回答ScienceQA问题时,ChatGPT倾向于调用知识检索(Knowledge Retrieval),占用比例为72%,而仅在3%的情况下调用必应搜索(Bing Search)。

在TabMWP任务中,ChatGPT更依赖行查找(Row Lookup)工具,较少调用列查找(Column Lookup)。

而GPT-4在工具选择上表现得更加客观和理性。例如,在回答ScienceQA的科学问题时,GPT-4更频繁地调用知识检索,并且相对ChatGPT更频繁地调用Bing搜索(11% vs. 3%)。


工具调用的转态转移图

vivonex折叠屏

通过可视化Chameleon模型生成的程序中不同工具的状态转移图,可以观察到LLM规划器在工具调用中所展现的规律。

例如,在ScienceQA任务中,Chameleon模型通常会选择使用知识检索(Knowledge Retrieval)来获取大型语言模型中的内部知识,或者调用必应搜索(Bing Search)来获取互联网上的在线信息。

在TabMWP任务中,我们观察到两种主要的工具调用模式:Chameleon模型要么直接通过自然语言推理来完成回答,要么利用程序生成相关的工具来增强逻辑和数学推理。


Chameleon模型的进一步发展

Chameleon模型通过其简单高效的框架,实现了大型语言模型与多种外部工具的高效协同,从而显著增强了在复杂任务上的推理能力。

在大型语言模型的工具增强领域,未来有许多潜在的发展方向:

(1)扩展工具箱:可以将工具箱扩展到更多工具,包括特定领域的工具,如Wolfram。这将进一步增加Chameleon模型在不同任务和领域中的适用性,使其成为更全面的多功能工具。

(二)改进规划器:可以考虑提出更加准确的规划器,例如能够逐步规划下一步骤的工具,并根据执行结果的反馈进行规划优化。这将有助于提高Chameleon模型在复杂任务中的效率和准确性。

(三)轻量化替代:未来可以考虑将涉及到大型语言模型的部分替换为更轻量级的本地模型,以减小计算资源的消耗,提高模型的响应速度,并降低部署成本。这将使Chameleon模型更适用于实际应用场景。

总之,Chameleon模型的未来发展有望在工具增强领域取得更大的突破,为解决复杂问题提供更强大的支持,并拓展其应用范围。

参考资料:

[1] Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao. NeurIPS 2023.

[2] MathVista: Evaluating Math Reasoning in Visual Contexts with GPT-4V, Bard, and Other Large Multimodal Models. Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao. arXiv:2310.02255.

[3] SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models. Xiaoxuan Wang*, Ziniu Hu*, Pan Lu*, Yanqiao Zhu*, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang. arXiv:2305.00970.

[4] TheoremQA: A Theorem-driven Question Answering Dataset. Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia. EMNLP 2023.


返回网站首页

本文评论
智能外呼平台、多个专题地图、携手开发者集思广益…百度多举措助力社区防疫
  全面打响疫情防控阻击战后,社区走在基层防疫的第一线,如何发挥社区群防群控优势、遏制疫情蔓延势头,成为打赢抗疫战的重要关节之一。眼下,包括百度在内的国内诸多科技企业,...
日期:07-09
官方辟谣激情誓师女生考508分:女生考了600多分 考得特别好_女生考500分读什么专业好
6月29日消息,有网友发文称湖南桑植一中学激情誓师的学生高考失利,成绩为508分超理科一本线90分。微软的智能手表抢占了去年圣诞雷克沙ddr5内存缺口位置microsoft teams mac版...
日期:06-30
快手最新处置招嫖类账号50万+个、诈骗类账号63万_买卖快手号犯法吗
2月8日 消息:日前,快手发布了关于打击招嫖的治理公告和严厉打击诈骗类账号的公告第二期内容。据悉,本期平台共处置招嫖的类违规账号50万+个,共处罚诈骗类账号63万。快手表示,近...
日期:02-08
以太坊区块链技术「以太坊“大合并”使得区块链能耗与加密代币价格双双暴跌」
随着以太坊主区块链完成从 PoW 向 PoS 模式的转型合并,网络能源成本也迎来了大幅下降。与此同时,ETH 的币价也迎来了暴跌。作为全球第二大加密代币,以太坊并未在向 2.0 版本大...
日期:09-24
大模型训练「大模型,拼算力更拼落地力」
声明:本文来自于微信公众号 节点财经(ID:jiedian2018),作者:七公,授权转载发布。“一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可能在两周后在美国德克萨斯引起一...
日期:08-04
今晚8点京东11.11正式开启 海量文具现货开售价保11.11_京东文具店
今年京东11. 11 将于 10 月 23 日晚 8 点正式开启,不同于以往的预售开场,今年京东11. 11 不仅有预售,更有大部分便宜好物“现货开卖”,不用等。同时,还有超 8 亿商品支持全程价保...
日期:10-24
谷歌DeepMind联合创始人:生成式AI只是一个阶段 未来发展方向是交互式AI
文章概要:1. 谷歌DeepMind联合创始人穆斯塔法·苏莱曼表示,生成式人工智能(AI)只是一个阶段,未来的发展方向是交互式AI。2. 他认为交互式AI将能够执行用户指定的任务,调用其他软...
日期:09-19
OpenAI 若满足数据监管部门的要求 ChatGPT 可在意大利恢复使用
4月13日消息:据美联社消息,如果 ChatGPT 的制造商 OpenAI 遵守措施,满足监管机构因隐私问题对人工智能软件实施的临时禁令,那么 ChatGPT 很快就能回到意大利。意大利数据保护机...
日期:04-13
添翼AI 智创未来,猴牌庄园成功打造科技与茶文化的超级链接
打造科技与茶文化的超级链接,猴牌庄园全程参与了由上海市黄浦区科学技术委员会主办,北京国枫(上海)律师事务所、上海海派智谷科技有限公司承办的“添翼AI 智创未来”论坛活动在...
日期:07-20
「微信和支付宝都支持 「华为Mate」-60 Pro支持面容支付」「华为支持微信面容支付的手机」
来源:中关村在线苹果6系列停产了吗DOTA2 EHOME华为mate 50pro有没有配抗摔玻璃以太坊 货币华为Mate 60 Pro先锋计划已经推出一周,许多用户已经第一时间体验到了这款全新的国产...
日期:09-06
如何实现真正的去中心化预言机?_去中心化预言机项目比较
当前的去中心化预言机还无法达到领先公链级别的安全和去中心化...假设我是一个开发团队的成员,该团队拥有一个有数万亿美元流动的智能合约...但这是Chainlink协议的精妙之处....
日期:08-01
中国绿色计算产业联盟「中国绿色算力大会|聚变创新,共建绿色未来」
通信世界网消息(CWW)7 月 2 日,超聚变以“聚变创新,共建绿色未来”为主题,在呼和浩特成功举办中国绿色算力大会 — 超聚变绿色算力平行会议。来自北京大学、内蒙古工业大学、工信...
日期:07-04
大型语言模型DeBERTa:具有解纠缠注意力的解码增强型 BERT_最大的语言模型
11月29日 消息:近年来,BERT在自然语言处理任务中取得显著成就,但DeBERTa通过引入“解缠注意力”和“增强遮罩解码器”等创新机制,进一步提升了模型性能。DeBERTa引入了解缠注意...
日期:11-29
facebook手机版本_Facebook推出低端手机应用 支持逾2500种机型
  北京时间1月20日消息,据国外媒体报道,Facebook与移动应用开发商Snaptu共同推出了一款面向普通功能手机的Facebook应用,并从即日起提供90天的免费数据服务。   Facebook...
日期:07-25
小米13mpcamera「小米13 Ultra官图公布:传承徕卡M系列相机设计 支持IP68」
快科技4月17日消息,在公布外观展示视频之后,小米终于不再藏着掖着,直接公布了小米13 Ultra官图,并揭晓了设计理念。官方表示,这是与1954年诞生至今的徕卡M系列相机完全相同的设计...
日期:04-17
Facebook和Twitter“被唱衰” 在美前景黯淡(Facebook现状)
  据国外媒体报道,现在说Facebook很受欢迎可能还为时过早,eMarketer提供的数据说明了有多少人正在使用Facebook,以及在未来的几年中有多少人会使用该社交网络。   2010 年...
日期:07-26
软件成三星致命软肋:应收购软件公司
  阿喀琉斯之踵   平板电视业务部门亏损及与苹果的专利纠纷已经让三星销售额锐减,而德国法院上周颁布的Galaxy平板电脑禁售更是令三星雪上加霜。鉴于三星在硬件产品方面...
日期:07-22
薇娅之前「薇娅夫妇前脚买地后脚注销电商公司,带货不如做投资?」
“薇娅夫妇”生意场6·18来临之际,薇娅夫妇申请拟注销名下电商公司。近日,据国家企业信用信息公示系统显示,杭州谦寻电子商务有限公司(以下称“谦寻电子”)近日新增简易注销消息,...
日期:06-13
7天涨粉400万,谁制造了“挖呀挖”?
声明:本文来自微信公众号“开菠萝财经”(ID:kaiboluocaijing),作者:纪校玲编辑:金玙璠,授权转载发布。不是每一个爆火的“素人”都能成为“丁真”。最近,很多人不是被“挖呀挖”洗...
日期:05-08
快来体验华为Mate,60系列的黑科技 超级Mate馆登陆全国24座城市
来源:中关村在线从8月29日开启先锋计划,到9月25日正式发布,华为Mate 60系列一直都是市场关注的焦点。而且,随着整体销量的持续攀升,其市场口碑也在不断提高,这些都充分表明华为已...
日期:09-30