您的位置:首页 > 互联网

数学模型起源「专注数学的开源大模型LLEMMA来了 性能领先其他数学语言模型」

发布时间:2023-10-22 23:46:11  来源:互联网     背景:

要点:

1. LLEMMA 是一个开源的大型语言模型,专门设计用于解决数学问题,并且在性能上超越了其他领先的数学语言模型。

2. LLEMMA 能够利用工具和证明形式定理来解决数学问题,而无需进行额外的微调。

3. LLEMMA 的发布为其他研究人员提供了一个基础,可以在此基础上进一步研究和改进数学语言模型的能力。

数学模型常用软件

数学model number

10月22日 消息:研究人员介绍了 LLEMMA,这是一个开源的大型语言模型,专门设计用于解决数学问题。与其他领先的数学语言模型相比,LLEMMA 在性能上表现出色,为进一步的研究提供了一个强大的平台。尽管 LLEMMA 并不是一个完美的数学求解器,但它代表了专门化大型语言模型发展的重要一步,可以推动人工智能研究进入新的方向。

LLEMMA 是基于 Code Llama 构建的,Code Llama 是 Meta 公司开源的 Llama2模型的改进版本,经过在代码特定数据集上的微调。研究人员开发了两个版本的模型,一个有70亿参数,另一个有340亿参数。这些模型还在研究人员创建的 Proof-Pile-2数据集上进行了进一步的微调,该数据集由科学论文、包含数学的网络数据和数学代码组成。

在实验中,研究人员发现 LLEMMA 在数学基准测试中表现出优越的性能,超过了所有已知的开源模型。“我们得出结论,持续在 Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。”

此外,LLEMMA 还展示了使用工具和证明形式定理的能力,而无需进行额外的微调。它可以利用 Python 解释器和形式定理证明器等计算工具来解决数学问题,这些工具可以通过提供外部知识来验证和纠正模型的答案,进一步增强模型的问题解决能力。

蔚来汽车火灾

论文地址:https://arxiv.org/pdf/2310.10631.pdf

虽然已经有一些大型语言模型针对数学进行了微调,例如 Google 的 Minerva,但 Minerva 并不是开源的。而 LLEMMA 则超越了 Minerva,即使在参数相等的情况下也能够表现得更好。

研究人员已经发布了他们的所有资源,包括70亿参数和340亿参数的模型,Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法,LLEMMA 是第一个能够与闭源模型的性能相匹配的开源模型,这使得其他研究人员可以在此基础上进行进一步的工作和改进。

LLEMMA 是发展特定领域的大型语言模型的更广泛倡议的一部分,而不是能够执行多个任务的通用模型。LLEMMA 的成果表明,通过改进数据和扩大数据集,即使是较小的模型也能够取得显著的结果。例如,LLEMMA-7B 在几乎所有的数学推理数据集上都优于 Code Llama-34B。

研究人员指出,“针对特定领域的语言模型可能会在给定的计算成本下提供更强大的功能,或在给定的能力水平下降低计算成本。” 这与其他研究表明,当小模型在一个由高质量样例组成的非常大的数据集上进行训练时,它们可以继续改进。

大型语言模型是否适合解决数学问题一直是一个广泛讨论的话题。衡量大型语言模型推理能力的难度很大。通常,模型在数学基准测试中得分较高是因为 “数据污染”,即测试样例包含在训练数据中,基本上意味着模型已经记住了答案。

也有研究表明,当以稍微不同的方式提出同一个问题时,大型语言模型可能会给出不同的答案。一些科学家认为,由于其随机性质,大型语言模型基本上不适合解决数学问题。

LLEMMA 的开发人员采取了细致的步骤来验证基准示例是否包含在训练数据中。虽然他们在训练和测试数据中发现了类似的示例,但他们得出结论:“测试示例和训练文档之间的非平凡匹配并不意味着模型生成了一个记忆的正确答案。”

发展可靠解决数学问题的大型语言模型可以增强语言模型的推理和规划能力。LLEMMA 的成就,尤其是模型和代码的发布,也可以为其他领域提供好处,通过为不同领域专门化的大型语言模型提供基础。

研究人员认为,“具有强大数学推理能力的语言模型是一些研究课题的前沿,例如奖励建模、推理的强化学习和算法推理。” 我们将会看到 LLEMMA 能够激发出哪些新的研究。


返回网站首页

本文评论
实探ofo创始人戴威的美国咖啡店:目前不赚钱_戴维ofo创始人哪里人
5月19日消息,ofo创始人戴威赴美创业,开了一家名为About Time Coffee(咖啡时光)的咖啡店。有博主实探About Time Coffee咖啡店。他表示,该咖啡店目前在纽约有五家店,位置都在繁华...
日期:05-20
美团大跌后腾讯辟谣清仓,今年已遭沈南鹏8次减持「美团跌破3000亿是什么原因导致的?」
  作者:陆涵之;;责编:宁佳彦  8月16日,有消息称,腾讯控股(00700.HK)将出售美团(03690.HK)股票,对此腾讯集团市场与公关部总经理张军进行了辟谣。今日港股,包括美团在内的腾讯系股...
日期:10-06
NFT热潮遭遇急刹车 OpenSea在90天内录得99%的交易量下降
OpenSea,加密货币世界中最广泛认可的NFT市场之一,高速发展的它近期就像是撞上了一堵厚厚的墙。交易量的缺失是最大的变化:这个分散的市场在短短90天内,NFT交易量下降了99%。从5...
日期:08-29
泡泡玛特盲盒损坏_盲盒要管起来,泡泡玛特又跌了
  文 / 马轶杰;责编 /;高梦阳;编辑;/;梁又匀   8月16日市场监管总局公开征求《盲盒经营活动规范指引(试行)(征求意见稿)》意见,拟对盲盒销售的内容、形式、定价、销售对...
日期:08-19
联想拯救者y7000 2020款屏幕尺寸「8.8英寸144Hz高刷屏!新款联想拯救者Y700屏幕定了」
快科技7月14日消息,今天,联想拯救者官方公布了新款Y700平板电脑的屏幕参数。根据官方介绍,新一代Y700平板沿用了系列此前的8.8英寸屏幕,与一众向着12英寸发展的平板相比,更加适合...
日期:07-15
支付宝大额存款需3年提取?不实「支付宝定期存款可以提前取出来吗」
  个人账户的高风险操作行为可能影响账户正常使用。为规避风险,用户须规范使用自己的账户,不要轻易与不明账户交易,不要把个人账户出借给他人使用,也不要进行网络刷单、跑分、...
日期:09-18
推进ipv6规模部署「八部门:加快 IPv6 基础设施升级演进发展」
4月23日消息:据工信部官网,工业和信息化部等八部门发布关于推进 IPv6 技术演进和应用创新发展的实施意见,其中提到,加快网络基础设施升级演进。基础电信企业面向行业数字化转型...
日期:04-23
Facebook股份拍卖首次出现失败(facebook复审成功的机会)
  10月16日上午消息,私营公司股票交易市场SecondMarket本周再次对Facebook股份进行了拍卖,然而本周的拍卖却首次出现未能成功的情况。   知名科技博客迈克尔·阿灵顿(Mic...
日期:07-24
长三角一体化发展,打造创新平台和新增长极_长三角(常熟)产业数字化创新峰会: 数字化加持,增长正见效
  零售业历经百年发展,从传统百货时代逐步迭代至当下的新零售纪元,模式和技术的革新始终在双轮驱动零售行业进入全新阶段,业界纷纷呈现出更多更富有创新性的突围之道,不管是...
日期:12-04
骁龙8 处理器加持!摩托罗拉推OTA9系统升级 10月9日正式发布_摩托罗拉 motorola edge s 骁龙870
10月9日,摩托罗拉推出OTA9系统升级,版本号为S1RN32.55-16-13。该升级针对2023年8月的系统更新,主要涉及以下内容:Android安全补丁、Moto游戏时钟等功能的修复,包括充电识别异常、...
日期:10-10
小米集团:9月2日共耗资约4915万港元回购440万股「小米集团股份」
  小米集团于9月2日回购440万股,回购价格为11.1-11.22港元,共耗资约4915万港元。iphone会摔坏吗rpa机器人上市公司...
日期:09-05
2018年极光大数据appQ2排行榜_极光:2020Q2直播行情持续火爆,6月份渗透率上升至90.8%
  极光(Aurora Mobile, NASDAQ:JG)发布《2020年Q2移动互联网行业数据研究报告》,从整体app市场概览、热点分析、细分行业观察、app流量价值总榜、app渗透率总榜等角度全面...
日期:07-14
3个ChatGPT插件自动写书爆火,更多躺着赚钱玩法可以问AI自己!
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。ChatGPT插件数量大爆发!总数已达390个,与刚开放时的74个相比,增长超过400%。而且有网友指出,其中112个都是...
日期:06-15
生命起源答案:太空舱携带45亿年前小行星样本周日返回地球_太空生命资料
美国宇航局(NASA)的OSIRIS-REx探测器预定于9月24日将一个携带45亿年前小行星样本的太空舱送回地球,太空舱计划降落在犹他州沙漠。太空舱携带大约250克样本,可以帮助专家们更好地...
日期:09-23
街电科技与面包新语开启全新合作,广东地区全门店覆盖强化区域优势
  近日,街电科技与新加坡都市时尚烘焙品牌面包新语开启全新阶段的独家合作,续签广东地区全部85家门店,延续品质美味与贴心服务的完美组合,为广大食客驱走炎炎夏日的焦躁...
日期:07-14
悠可集团问鼎2021年天猫六星服务商,数字化精细运营服务能力获认可
  7月29日,天猫生态伙伴会议在上海成功举行。会上,天猫联合《哈佛商业评论》中文版公布了“2021年天猫星级服务商”榜单,悠可集团凭借专业的数字化精细运营服务能力和深刻的...
日期:07-17
人人网股价暴涨原因_人人网股价两月蒸发过半 投资者看好增长潜力
(马文) 北京时间6月25日消息,据国外媒体报道,被媒体称作中国Facebook的人人网,自登录美国股市近两个月来其股价已经跌去一半,但该公司增长有良好的增长潜力,其股票仍然吸引着投资...
日期:07-30
Adobe推出兼容Android系统的PDF阅读器(android pdf阅读器开发)
  5月26日消息,据国外媒体报道,美国Adobe公司日前宣布,旗下的王牌产品PDF阅读器已经可以在基于谷歌Android操作系统的手机上使用。   这种新的手机应用程序允许用户阅读从...
日期:07-29
Hi畅享60 5G发布 6000mAh电池 售价 1399 元起 「鸿蒙生态手机」
4 月 24 日,法国科技品牌 WIKO正式发布全新的5G手机系列Hi畅享及新品手机Hi畅享60 5G。Hi畅享60 5G具备鸿蒙分布式能力,并获得了 HarmonyOS Connect 认证,搭载 6000mAh 大容量...
日期:09-17
阿里巴巴内部论坛网_阿里巴巴小企业论坛解密“阿里传家宝”
  拍手器、戒指、工牌当选   拍手器、戒指、工牌,这三样被阿里巴巴称为“传家宝”的小物件,到底有什么样的力量?2011年1月14日,由阿里巴巴旗下阿里学院举办的首届阿里巴巴...
日期:07-25