您的位置:首页 > 互联网

实测学而思MathGPT大模型:中小学数学解题正确率有望在全球范围内创造新 SOTA

发布时间:2023-08-30 10:53:36  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:白交 ,授权转载发布。

国内首个数学大模型MathGPT开放内测了,不上手试试怎么行?

第一印象上,最明显的就是:啪的一下,很快啊~

题目识别到对话框,结果不光答案准确,还就给出了具体的公式步骤、详细解析。

并且支持公式输入和修改。

这着实是数理爱好者福音了!要知道市面上GPT-4在内的通用大模型,都无法实现这一点。

作为千亿参数级别首个数学专用大模型,放在全球范围内也是少数,背后则是来自国内教育行业20年深耕的学而思。

另外内测据说还只是开始,因为之前就已经透露,将于年内推出基于该自研大模型的产品级应用。

所以这款垂直数学大模型究竟怎么样,完整上手“体验报告”呈上。

上手实测:支持公式图像输入

首先,从大模型基础功能来看,与GPT-4、Claude2相比,MathGPT主要有这些能与不能。

由于是数学专用大模型,因此对话内容目前只能回答与数学相关的问题。

界面上从现有的示例上看,它目前覆盖小学、中学以及高中的题目。

不仅有内容的划分,比如集合、立体几何、解析几何、导数、三角函数、统计学等模块;

还有题型的选择,比如应用题、高考填空压轴、解答压轴;

以及一些开拓思维的题目,比如小学题目中的推理推导、归纳总结、创新思维;初中的反正法、代入法等。

对于数学爱好者而言,可以说是非常全面了。

在输入端,除了普通文本外,它支持公式格式以及图像(带有数字和文字)的输入。

除此之外,面对数学题目的追问,它也支持多轮对话的能力。

了解基本情况后,接着就来考验一下MathGPT的真实实力。

根据此前官方介绍,MathGPT是以解题和讲题算法为核心的大模型,具体拆分为三个问题:

  • 题目要解对;

  • 解题步骤要稳定、清晰;

  • 解题要讲的有趣、个性化。

依照这样的逻辑,先来看看它的基本解题思路。

以初中示例题为例,分为分析、详解、点睛三个步骤,不光给出详细的步骤,还会给你说知识点和题目难度,这归属于基本不等式的应用,难度为中档。

甚至还可以举一反三,比如就像这道整体代换的题目。

随手修改其中一两个数字,结果不光给出来了,还有更为详细的解析。

那么再上点难度,直接考验它高中题目,比如这道选择压轴。

结果也是分分钟出来。

还有像涉及几何类型的题目,也没有被难倒。

,时长00:30

所以,一圈体验下来,简单总结一下MathGPT的评测感受:

  • 基础功能上支持公式格式、图像输入,对数学爱好者很友好;

  • 支持小初高中的各类型题,覆盖比较全面。

  • 还能举一反三,多轮对话。

除此之外,还有一些不足,比如图像输入暂时不支持几何类型的题目,以及有时会出现一些乱码问题,比如答案对了,但中文输入,结果英文输出……

首个数学大模型,为什么是学而思?

大模型涌现以来,数学推理能力始终是产学研界共同攻坚的对象。

通用思路都是基于现有的通用LLM进行调优,最典型的就是OpenAI自己提出过程监督方法。

传统奖励模型采用的是结果监督,仅针对思维链的结果进行判别和反馈;相对的,过程监督就是对思维链每一步进行反馈。因此奖励增多、效果变好。

更多的还有像指令微调、prompt优化等思路。微软全华人团队提出WizardMath,用AI生成的指令微调羊驼大模型,结果直接超ChatGPT。

以及前段时间,有研究团队发现GPT-4代码解释器的代码生成和执行机制,于是就有特定的代码约束提示词直接将数学能力拔高至SOTA。

而像专门针对数学推理方向的自研大模型确实不多。目前来看,国内有且只有一个。

这样做的核心原因只有一个,加速大模型在数学领域的落地。

于行业玩家而言,若是依照通用开源LLM进行调优,一来目前还处于积极探索的阶段,没有形成一个很好的范式;二来,幻觉问题没有解决,稳定性依旧无法保证。

而数学推理不光要求结果的准确,还得强调过程的清晰和逻辑性。

vivo x fold首发有多少货

当然同样的原因,也不能简单直接调用像GPT-4的API,性能等各方面始终会受限。

不过此前我们也讨论过,打造行业大模型天然就有这非常高的壁垒,数据量大还得高质量,关键还要有场景,知道行业Know-how。

既然如此,学而思又是如何做到?

核心还是:术业专攻、对症下药。

一方面,最首要也是本质的原因——术业专攻——多年在数学和AI领域的深入研发和布局。

学而思“以数学起家”,至今已有20年的数学教学经验,积累了庞大的数学相关数据,这些独家数据是进行MathGPT训练的必备物料。

而在AI领域,学而思早在第一波AI浪潮兴起之时(2017年)就已经开始布局——成立AI lab人工智能实验室。如今还是教育领域首批唯一一家人工智能“国家队”成员。

在学术方面,学而思实际也有高频产出。公开资料显示,基于智慧教育人工智能开放创新平台助力,学而思AI lab获得各类顶级学术会议比赛冠军16项,亚军6项;发表国际期刊和会议高水平学术论文31篇,包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究。

而在产品应用端,今年2月学而思学习机上线AI讲题机器人“小π”。其相关技术于2020年启动研发,背后是超3亿专业题库数据,经过三年的数据训练和迭代。

在实测中可以看到,在配套的AR镜识别到一道手写或者印刷的数学计算题时。

小π机器人会对题目进行智能AI拆解分析,同时生成逻辑流畅、表达清晰的语言,将题目的解题方法讲解出来。

该功能已覆盖的题目包括分数、小数等复杂计算,甚至一些“凑数、组合”的巧妙算法,已十分接近真人老师的解题效果。

正是基于这样的行业Know-how,MathGPT自诞生之日起就定义明确「面向更广泛的数学爱好者和科研机构打造」,并对症下药——

因为想要打造数学垂直大模型,就绕不过三大挑战:

  • 第一,题目要解对。现在连GPT的结果经常出现错误;

  • 第二,解题步骤要稳定、清晰。现在GPT的解题步骤每次都不一样,而且生成内容经常很冗余;

  • 第三,解题要讲的有趣、个性化。现在GPT的解释过于“学术”和机械,对体验很不友好。

基于这样的目标,MathGPT结合大模型和计算引擎两者能力。

前者负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以此来提高正确率。基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。

可以看到的是,学而思展现了场景玩家入局大模型的优势——

可以后发制人,谋定而后动,而且壁垒天然。

Wolfram alpha之后,数学大模型

随着业内首个数学大模型的发布,有关大模型在数学领域的落地可以阶段性梳理,大致可以分为两个方向。

一方面,科研为核心的前沿探索。陶哲轩不止一次地透露大模型如何加入其工作流、辅助研究。

他让GPT-4针对论文提出问题来准备讲座;还让GPT-4生成数学证明,并发现过去阅读人类作品的经验完全不适用了。

对于AI在数学研究中的表现,他给出预言:

当与形式证明验证器、互联网搜索和数学符号包等工具整合时,2026年的AI,如果使用得当,将成为数学研究中值得信赖的共同作者,而且在许多其他领域也是如此。

移动云四融战略

事实上,在更多的科研领域,大模型也正在赋予这样的价值。学界教授也不止一次提出,大模型的幻觉不见得是坏事,可以给研究方向提供新思路。

另一方面,则是面向更广泛大众的普惠教育、基础教育提升。让大模型参与到学习数学、思考数学的过程当中去,帮助人们更好地解决数学问题。学而思MathGPT就是基于这样的初衷。

事实上,数学本身在各个领域中充当着一种基础能力,未来数学大模型也将能够以工具的形态,与更多行业产生关联。

在此之前,理工科神器Wolfram alpha,就是以这样的作用垂直风靡。

它颠覆了传统模式,创造了一种全新的知识搜索引擎。由于支持几何、数值以及符号式计算,并拥有强大的可视化功能,支持用户对上传的图片进行识别等一系列功能而受到推崇。目前已经支持包括数学、统计学、物理化学、材料学等近20个领域的查询、计算和分析。

而现在,随着大模型范式到来,Wolfram alpha一样的理工基础教育、科研的工具,也将面临革新浪潮。

至少MathGPT已经展现了这样的趋势,MathGPT正在实践这样的趋势。

而MathGPT,一定只是开始。你说呢?

—完—


返回网站首页

本文评论
知乎 净利润_知乎12年 还在为盈利发愁
来源:北京商报   12年前的2010年8月10日,知乎公司创立,2022年8月10日,知乎CEO周源除了发布站内信回顾公司发展,还披露了一项商业化进展:7月盐选会员突破1000万。如果纵向对比,202...
日期:08-12
李斌:蔚来今年目标销量翻倍 四季度将有望盈亏平衡「蔚来年销售额」
3月1日,蔚来发布2022年第四季度及全年财报。蔚来四季度营收160.6亿元,同比增长62.2%,连续11个季度正增长,全年总营收达492.7亿元,均创新高;荣耀magicbook锐龙版评测四季度研发支出...
日期:03-02
中国万网荣获IDC产业“优秀企业邮箱”及“优秀云主机”双料大奖
  近日,第五届中国 IDC 产业年度大典(以下简称“IDC大会”)在北京新世纪日航饭店如期拉开序幕。会上,中国万网凭借在锋云主机和企业邮箱市场上的卓越表现,一举斩获 “年度优秀...
日期:07-25
在Galaxy Buds Pro正式发布前 有人已开始在Facebook上出售这款产品_galaxy buds pro吧
  据外媒报道,三星已经确定将于1月14日举行Unpacked或Everyday Epic活动。他们将发布Galaxy S21系列以及Galaxy Buds Pro等产品。关于Galaxy Buds Pro,我们已经看过足够多...
日期:07-16
荣耀magic2支持多少倍变焦「解决信号盲区!荣耀Magic V2搭载射频增强芯片C1:Wi-Fi速率提升200%」
快科技7月12日消息,荣耀Magic V2今晚正式登场,除了9.9毫米的纤薄机身,它还内置了荣耀自研的射频增强芯片C1,为新机的信号连接提供保障。荣耀Magic V2在天线设计升级的基础上,通过...
日期:07-13
11月邮政行业运行情况公布:业务总量累计完成1.45万亿元_2018年1月份全国邮政行业业务总量同比
  12月14日消息 今日,国家邮政局公布了2019年11月邮政行业运行情况。   国家邮政局数据显示,1-11月,邮政行业业务收入(不包括邮政储蓄银行直接营业收入)累计完成8681.5亿...
日期:12-22
微软 AI 图片生成工具 Bing Image Creator 限制过度 未来将逐渐放宽「微软 ai 识图」
3月23日消息:微软于当地时间周二推出了 Bing Image Creator,它允许用户根据基于文本的提示创建人工智能生成的图片。在其推出后的一天里,一些人对该服务对某些查询的限制性感...
日期:03-23
华为Mate60造型流出 设计更加独特 能超越曾经的星环吗?_华为mate60百度百科
【手机中国新闻】7月19日,手机中国注意到,有博主放出了自制的华为Mate60系列第三方渲染图。虽然这并非官方图片,但也能够让我们进一步了解还未发布的华为Mate60系列手机。李小...
日期:07-19
微软云服务增长「微软多项云服务落户中国新数据中心 明年推出Microsoft365应用」
手机翻盖凤凰网科技讯 10月13日消息,在Ignite 2022中国技术峰会上,微软宣布多项Azure、Dynamics 365、Power Platform服务落地中国北部三数据中心区域;由世纪互联运营的Office...
日期:10-14
书山有路勤为径,径的意思「书山有路“趣”为径  叫叫&人民网举办“儿童阅力计划”2023发布会」
自 2014 年以来,“全民阅读”连续十年被写入政府工作报告。“全民阅读”成为一项关乎国家发展、民族复兴的重要工程。推动儿童科学阅读,从小培养良好的阅读兴趣、阅读习惯、阅...
日期:04-24
macbook概要「苹果将MacBook的官方描述从“Notebook”改为“Laptop”」
10月8日消息,据国外媒体报道,随着随着Mac完成向苹果芯片的过渡,苹果上周开始悄然将MacBook的描述从“ Mac notebooks”改成了“laptops”,在在线商店的产品页面、苹果支持中的文...
日期:10-09
长视频继续增长的三个关键「长视频的发展」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:王珊珊,授权转载发布。市场总是一个挑战接着一个挑战,一座高山连着一座高山。2023年长视频能否继续保持增长,最终取决于始终抓...
日期:01-10
全国已开通5G基站超50万个 累计终端连接数已超过1亿_5G基站累计开通96.1万个
(ChinaZ.com) 9月23日 消息:据工信部消息,截至目前,全国已建设开通5G基站超 50 万个。5G用户不断增长,累计终端连接数已超过 1 亿。预计今年底5G基站将超过 60 万个、覆盖全国...
日期:08-01
新能源工资多少钱一个月「一季度全国平均招聘月薪10101元 新能源进入薪资TOP10行业」
智联招聘近日发布《中国企业招聘薪酬报告》,报告显示,一季度全国平均招聘月薪10101元,环比下降,同比略升。DirectX 12 的 GPU报告显示,2023年一季度,38城企业平均招聘薪酬为10101...
日期:03-30
技巧:如何卸载 Win10 基于 Chromium 的新版 Edge 浏览器(微软edge浏览器怎么删除)
  7 月 7 日消息 虽然微软采用 Chromium 重新打造 Edge 浏览器受到很多用户的欢迎,目前新的微软 Edge 现在已经可以在所有主要平台上使用,包括 Windows 10、Windows 7、mac...
日期:07-14
吹响企业数字化开工号角!开工开会就用MAXHUB
  近日,在一声声“开工大吉”中,各企业纷纷吹响了开工的“集结号”。与此同时,2月26日,MAXHUB开工节正式拉开帷幕,活动期间,企业在线免费申请会议平板开工大礼,即有机会开启高效...
日期:07-16
一体机电脑多少钱可以直播「一体机电脑多少钱」
一体机电脑已经成为现代家庭、办公室的必备设备,随着科技的不断进步,型号和价格也日渐丰富和多样化。那么,一体机电脑的价格到底是多少呢?苹果专卖店购买iPhone12要加价吗首先,我...
日期:06-03
华为Mate X3折叠旗舰配置曝光:7.8英寸 2K 120Hz大屏、潜望镜主摄
3月21日消息,今天数码博主爆料称,华为Mate X3将会搭载7.8英寸2K屏幕,支持120Hz高刷,另外还将搭载昆仑玻璃,具有更强的抗磨耐摔能力。还支持无线充电、IPX8和多角度悬停等实用功能...
日期:03-24
供应链消息 苹果对iPhone 15 Pro和Ultra潜望式长焦镜头要求
据iPhone供应链企业大立光电消息称,苹果计划将在明年iPhone 15 Ultra旗舰机型上加入潜望式长焦镜头,该供应商已经在内部开始研制潜望式长焦镜头模组,在该模块中,苹果决定放弃塑...
日期:11-12
ChatGPT 对学生和教师产生哪些影响 ?
声明:本文来自于微信公众号Edu指南(ID:EduZhiNan),作者:Rea,授权转载发布。ChatGPT自2022年11月发布以来,在网络世界中受到了广泛关注。因此,许多人好奇 ChatGPT 的使用将如何影响未...
日期:03-06