您的位置:首页 > 互联网

34B参数量超越GPT-4!数学通用大模型MAmmoTH开源:平均准确率最高提升29%

发布时间:2023-09-19 20:15:22  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】数学通才猛犸模型给开源语言模型带来了推理春天,面对GPT-4都有一战之力!

数学推理问题是语言模型绕不过的痛点,在各种黑科技的加持下,开源模型的推理性能依然不够看。

最近,滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为通用数学问题定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.

论文链接:https://arxiv.org/pdf/2309.05653.pdf

项目链接:https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct由13个具有中间原理的数学数据集编译而成,其中6个为新数据集,混合了思想链(CoT)和思想程序(PoT),并确保覆盖了广泛的数学领域。

CoT和PoT的混合不仅可以释放工具使用的潜力,而且还允许模型针对不同的数学问题进行不同的思维过程。

因此,MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现大大优于现有的开源模型,平均准确率提高了12%至29%。

其中MAmmoTH-7B模型在MATH(竞赛级数据集)上的准确率达到了35%,超过了最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果。

数学推理领域新王:MAmmoTH

在数学推理任务上,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距,目前基准数据集上的sota仍然是GPT-4,PaLM-2和Claude等闭源模型,其他开源模型如Llama,Falcon和OPT等仍然远远落后。

Apple Watch S7价格

为了弥补性能差距,主要的研究方法有两类:

1. 如Galactica,MINERVA等模型,继续使用数学相关的网络数据对语言模型进行训练,可以提高模型的通用科学推理能力,但计算成本会更高;

2. 如拒绝采样微调(RFT)和WizardMath等,使用特定领域数据集对模型进行微调,虽然可以提高领域内性能,但无法适用于更广泛的数学推理任务。

在解决数学问题时,现有方法通常会采用思维链(CoT)方法引导语言模型循序渐进地用自然语言描述来解决数学问题。

虽然在大多数数学主题下表现出很好的通用性,但在需要精确或复杂的数学计算、算法推理的问题下(如求解二次方程根,计算矩阵特征值)表现不佳。

相比之下,思维程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解释器)大大简化了数学求解过程,将计算过程卸载到外部Python解释器,以解决复杂的数学和算法推理过程(例如,用sympy求解二次方程或用numpy计算矩阵特征值)。

然而,PoT在处理更抽象的推理场景方面有所欠缺,尤其是在没有内置API的情况下,常识推理、形式逻辑和抽象代数的推理能力会更差。

方法概述

研究人员的目标是编制一个高质量、多样化的数学指令调整(instruction-tuning)数据集列表。

1. 覆盖不同数学领域和复杂度

更全面的数据集可以让模型接触到多样化的数学知识,提升模型的多功能性。

研究人员将选择范围缩小到几个被广泛采用的高质量数据集,包括GSM8K、math、AQuA、Camel和TheoremQA.

还可以注意到,现有的数据集缺乏对大学水平的数学知识的覆盖,如抽象代数和形式逻辑,所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链(CoT)原理,利用网络上找到的数个种子样例,通过自我指导(self-instruct)创建问题和CoT的数据对。

2. 混合CoT和PoT

现有的研究方法大多只关注CoT,并且数据集中也只包含有限的解题思路,导致CoT和PoT的数据量十分不均衡。

为了解决该问题,研究人员利用GPT-4来补充选定数据集的PoT解题思路,通过对比合成程序的执行结果以及人工标注的答案进行过滤,确保生成数据的高质量。

遵循上述方法,最后得到了26万条指令、回复数据对,涵盖了广泛的核心数学领域,如算术、代数、概率、微积分和几何等,混合了CoT和PoT基本原理,并提供多种语言、多个难度级别的数据,足以证明数据集的高品质和独特性。

训练步骤

研究人员统一了MathInstruct中的所有子集,将指令数据集的结构标准化为Alpaca模型的格式,使得模型无需考虑原始数据集的格式,在微调阶段统一处理数据即可。

中国手机供应链

研究人员选择开源模型Llama-2和Code Llama作为基础模型,在7B、13B、34B和70B尺寸的模型上进行微调。

实验部分

评估数据集

研究人员选择了不同数学领域下的样本,对模型的通用数学推理能力进行评估:

领域内数据集包括GSM8K,MATH,AQuA-RAT,NumGLUE;领域外数据集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵盖了小学、高中和大学水平的数学问题,部分数据集甚至包括形式逻辑和常识推理。

问题类型为开放式问题和多选题,其中开放式问题(如GSM8K、数学)采用PoT解码,因为大多数问题都可以由程序解决;多项选择题(如AQuA、MMLU)采用CoT解码。

CoT解码不需要触发词,PoT需要触发短语让我们写个程序来解决这个问题(Let’s write a program to solve the problem)。

实验结果

总的来说,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型,并且在领域外(OOD)数据集上的增益要显著优于领域内(IND)数据集,展现出了该模型作为数学通才模型的潜力,甚至在几个数据集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。

直播间可以放付费的歌吗

在领域内数据的评估,MAmmoTH模型的主要竞争对手是WizardMath和Platypus,其中WizardMath的训练深度依赖于GSM8K和MATH数据集,Platypus在更广泛的文本和数学推理数据集上对LLM进行微调。

相比之下,MAmmoTH实现了全面的改进,并且更擅长解决复杂数学问题,相比WizardMath(MATH数据的sota)的增益最高超过了25%

在领域外数据评估中,主要竞争模型依然是Platypus,不过MAmmoTH可以实现比领域内数据更高的性能提升,展现出对未知数学问题的通用能力。

值得注意的是,MAmmoTH-7B还将WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%,其中包含大量没有在训练数据集中涵盖的主题。

不同基础模型之间的对比

可以发现,Code-Llama作为基础模型时的效果始终优于Llama-2,尤其是在领域外数据集上,二者之间的性能差异甚至达到了5%,其中MAmmoTH-Coder(34B)在领域外数据集上的平均性能实际上高于MAmmoTH(70B)

研究人员认为,MAmmoTH-Coder从Code-Llama的持续代码训练中受益匪浅,不仅增强了PoT能力,还提高了Llama的通用推理技能。

参考资料:

https://tiger-ai-lab.github.io/MAmmoTH/


返回网站首页

本文评论
每月一部破万剧,数字的背后意味着什么?「数字有啥含义」
声明:本文来自于微信公众号奇偶派(jioupai),作者|范文,,编辑|钊,授权转载发布。“好内容”正在成为视频行业的共识。在刚刚过去的B站的14周年庆典上,B站宣布将调整视频的外显数据,未...
日期:07-11
该主播涉嫌违规「52名网络主播被列入警示名单 因存在恶俗炒作等违规行为」
12月15日 消息:近日,中国演出行业协会网络表演(直播)分会公布第十批网络表演(直播)行业主播警示名单,将刘**等52名主播列入警示名单。据悉,这些主播存在明显的违规行为,包括明显裸...
日期:12-15
卖旧手机又不想泄露数据,只恢复出厂设置可不行_卖手机,手机恢复出厂设置后会被恢复嘛
较真要点01仅通过手机恢复出厂设置不能保障信息安全,稳妥的办法是在手机恢复出厂设置并重启后,通过多次拷贝视频、下载软件等方式,把原有手机存储内存占满,覆盖掉原有数据,然后再...
日期:09-15
vivo X90S即将在今天下午正式发布 最强安卓手机?「vivox9最高安卓版本」
【手机中国新闻】据官方公布的信息,在6月26日的下午14点30分,vivo方面将会发布它们旗下的最新旗舰机型X90S。和此前发布的其它X90系列机型相比,X90S新增了「青漾」这种全新的配...
日期:06-26
成立7年、三冲IPO,花椒直播终于上市,还有新故事吗?「花椒直播 ipo」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。12月12日,冲击了三次IPO的花房集团终于在香港联交所主板成功上市。挂牌交易当天,花房集团开盘价为3.29...
日期:12-13
SpaceX:星链互联网服务已经获得超过 14.5 万用户_spacex星链计划官网
  北京时间 1 月 7 日早间消息,据报道,埃隆・马斯克(Elon Musk)的 SpaceX 公司在本周四公布了其星链(Starlink)互联网服务的最新情况,称已服务 14.5 万余用户。最近一段时间...
日期:07-17
Mozilla 宣布淘汰两个火狐浏览器 Firefox 扩展程序_firefox和火狐
  今日,Mozilla 官方宣布,由于服务器关停,将于 2 月 19 日为用户自动卸载 Voice Fill 和 Firefox Voice Beta 两个扩展程序。   官方表示,这一决定是在公司决定淘汰 Mozil...
日期:09-09
运营商财经网康钊:中国高铁会被进口轴承卡脖子?「国产高铁轴承上市公司」
运营商财经 康钊/文中国高铁的技术全球领先,但这不代表着中国高铁的所有零部件都能自己生产,轴承一直就是个大问题。近日,中国轴承工业协会总工程师何加群撰文呼吁应加快高速动...
日期:07-12
论造车还得是马王!法拉利全新车型KC23官图发布 造型神似宇宙飞船
快科技7月12日消息,日前,法拉利官方发布了其最新车型KC23的官图,据了解,该车基于法拉利488 GT3 Evo 2020打造,实车将于7月13日至16日在古德伍德速度节上正式亮相。从外观来看,新车...
日期:07-12
58同城及百姓网涉嫌贩卖国家保护动物遭抵制(非法贩卖野生保护动物)
  当全球森林不断被破坏、碳排放量不断增加使气候持续变暖时,野生动物的栖息环境面临着巨大的考验,在此情况下,对野生珍贵动物的保护也就变得刻不容缓,但总有个别违法分子伺...
日期:07-24
荣耀80 Pro曝光:年底发布 2亿像素主摄_荣耀20pro主摄像头多少钱
上午有荣耀80系列手机的最新消息,目前已经确定的是荣耀80系列有三款机型,分别为荣耀80 SE、荣耀80和荣耀80 Pro。对应的核心将是天玑1080、骁龙778G+以及旗舰级的骁龙8+处理器,...
日期:10-27
iPhone 5C将被苹果列为过时产品 神机退出历史舞台_苹果5c啥时候出的
中关村在线消息:近日,有外媒报道称又一款“远古神机”iPhone 5C即将被苹果官方标记为“过时产品”。该机其实早在2020年10月就被官方定义为“古董产品”,只提供部分维修服务。...
日期:10-13
左手拎行李右手拿地图,百度地图十一出行预测带你假期畅游
  它来了,它来了,它带着七天长假走来了!中秋小长假刚结束,马上又要迎来国庆黄金周。无论是上班族还是学生党,都可以趁着七天长假暂时逃离日常的压力和烦恼。左手拎行李右手拿...
日期:07-12
散热稳了!一加Ace 2 Pro首发航天级天工散热系统「一加散热技术」
一加Ace 2 Pro隆重登场,搭载全球首个航天级散热系统“天工散热系统”,为用户带来出色的散热能力和顶级的使用体验。该系统结合行业首个万级超大VC、航天级散热材料以及航天级...
日期:08-17
Intel与TCL华星战略合作升级 深度共建IT显示产品生态
2023 年 5 月 30 日,TCL华星与Intel战略合作交流会顺利举行。此次会议由TCL华星联合Intel共同举办,Intel全球执行副总裁、首席商务官Christoph Schell,Intel市场营销集团副总裁...
日期:05-31
2023年最热门的七大人工智能职业「2021年人工智能前景」
4月11日 消息:从人脸识别、导航地图、聊天机器人、语音助手、搜索引擎、文本编辑器到智能家居设备——AI 已成为当下日常生活的一部分。这种演变也带来了大量的就业机会。根...
日期:04-11
安卓最强5G Soc!联发科天玑9200 下周发:跑分超骁龙8 Gen2
快科技5月5日消息,iQOO转发联发科天玑微博,预告天玑9200 将在5月10日发布,与此同时,iQOO将会在当天宣布重要消息。不出意外,iQOO将会在5月10日当天宣布,iQOO Neo8 Pro全球首发联发...
日期:05-06
江浙沪人已经放弃五一抢票 解锁新出游方式_5.1江浙沪出游
据多家平台显示,五一火车票已经售罄,许多班次在开售后瞬间售空。在这种情况下,江浙沪地区的人开始搭顺风车出游,因为它能够更加灵活地安排时间和路线,避免因车票不足而改变行程。...
日期:04-27
一群人在一起文案「“有一群人在一起,就很好!”RTE Open Day 首场活动圆满结束」
开发者朋友们大家好啊,我是 @陈运营。就在上周末的7月22日, RTE开发者社区更名后的第 一场线下活动 —— 「RTE Open Day丨AI + 实时音视频的探索与实践」圆满结束,鼓掌。感谢...
日期:07-27
AVG提醒用户谨防软件式“钓鱼”,危害性远甚网页钓鱼
  随着黑客和病毒制造者的手法越来越多的被全球普通计算机用户所熟知,很长一段时间内,病毒和木马的表现显得乏善可陈。正所谓道高一尺魔高一丈,源于回报丰厚的黑色产业链支...
日期:07-26