您的位置:首页 > 互联网

1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4

发布时间:2023-08-24 17:46:14  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】数学的命运齿轮从此开始转动。国内首个专为数学打造的千亿级大模型MathGPT正式上线,在多项基准测试中碾压GPT-4,刷新SOTA。

数学AI大模型,或许会改变这个领域的未来。

今天,国内首个数学领域千亿级大模型MathGPT正式上线并开启公测!

即日起,便可通过官网申请注册账号免费试用体验。

图片

内测申请地址:www.mathgpt.com

这背后,是深耕数学领域20年的公司「好未来」团队自研,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型。

ipados15.1 beta2

MathGPT,是国内首个专为数学打造的大模型。

美大集成灶节能吗

仅需要通过文字或图片上传数学题,即可得到对话式的解答反馈。

另外,你也可以通过「随机来一题」的选项,随机生成数学题目并由系统给出解答。

目前,MathGPT支持中文、英文版本的PC端和移动端体验。

图片

领先的数学解题能力

其实,早在今年5月,好未来就曾公布正在进行自研数学大模型的研发,命名为MathGPT。

据CTO田密介绍,MathGPT汇集了好未来多年教育教研数据积累,专注于数学领域。

其中,千亿级大模型的训练、推理、部署框架,为模型赋予了强大能力。而优质教育数据,实现了题目计算、讲解、问答等多任务持续训练和有监督微调,呈现出卓越表现。此外,借助人类反馈对齐,模型的综合素养也得到进一步提升。

从评估结果来看,MathGPT在解题准确率、稳定性及用户体验方面均有明显的优势。

图片

MathGPT官网显示,MathGPT的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问,不过还暂未开放数学之外的问答互动。

MathGPT技术报告

MathGPT技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,好未来的MathGPT取得了多项测试的最高分数。

同时,MathGPT在C-Eval的初高中的全科测试集合上也均有不错的表现。

图片

MathGPT在C-Eval榜单初高中各科成绩

在解题稳定性、讲解友好度方面,MathGPT基于海量名师解题过程的数据进行模型训练,模型的解题步骤专业清晰。

以一道数列题为例,MathGPT给出的答案包含「分析」、「详解」、「点睛」三个部分,比通用大模型的粗略讲解方式更为细致。

其中,「分析」提供了题目的解题思路、思考方式,帮助用户更好地理解题目,「详解」则给出具体的计算方式和答案,最后「点睛」的环节,对题目的考点、难点、关键点进行提示,帮助用户回顾反思出题意图、举一反三。

图片

对于使用者而言,研究数学问题不仅在于得到答案本身,更在于答案背后的解题原理、思路逻辑。

与其他通用大模型相比,MathGPT能实现更高准确度的解题,也能把答案解析得更清楚、讲解得更明白,更好地满足用户使用AI产品解答数学问题的核心需求。

此外,在MathGPT发布同时,好未来也在官网更新了一个具有代表性和挑战性的数学任务评测集,供全球人工智能专家、数学爱好者体验和测评。

田密介绍,希望让MathGPT在数学教育领域发挥更大作用,好未来愿意把基于大规模、高质量的内容的千亿级大模型研发经验方法和业内分享,和行业共同进步。

好未来AI的厚积薄发

在AI浪潮的推动下,今年以来多家科技公司宣布推出通用大语言模型产品,而好未来选择了另一个方向,不基于将现有大语言模型做微调和接口调用、不做通用大语言模型,而是深入数学的垂直领域研发大模型,致力于打造自主、稳定、可持续、高质量的数学解决方案。

通用大模型「重文轻理」,在数学问题的解决、讲解、问答和推荐方面则存在明显的短板。而在另一个层面,在通往通用人工智能的路上,数学推理能力很重要,全球有很多大型公司在做这方面的研究。

「好未来在数学的数据和业务上有20年的积累,有大量的教育数据的积累和持续生产教育数据的能力,所以选择做这个难而正确的事情。」田密称,好未来希望用自己在数学和AI上的多年积累,做好AI大模型时代的数学基础工作。

早在2017年,好未来便成立了AI lab人工智能实验室。基于智慧教育人工智能开放创新平台助力,好未来AI lab获得各类顶级学术会议比赛冠军16项,亚军6项,发表国际期刊和会议高水平学术论文近百篇。

2019年,科技部宣布依托好未来建设智慧教育国家新一代人工智能开放创新平台,好未来成为教育行业首批唯一一家人工智能“国家队”成员,在人工智能领域有多年深入研究。多年来,好未来以教育行业重大需求为牵引,构建了面向教育的人工智能算法能力、应用解决方案、基础软硬件体系和开源开放服务的国家教育科技创新平台。

好未来也在积极参与推动大模型标准体系建设,先后作为核心单位参与了由国家人工智能标准化总体组组织的大模型系列国家标准、中国信通院牵头编制的「大模型预训练模型技术和应用评估方法」系列团体标准,以及教育部教育信息化技术标准委员会暨全国信息技术标准化技术委员会主导的「教育通用大模型」系列标准编制工作。

近期,好未来正作为牵头单位与中国信通院、复旦大学、科大讯飞、百度等行业领先科研机构、高校、企业一同编制教育大模型团体标准,从覆盖场景、应用成效、服务可靠等维度全面评估教育大模型能力,为教育大模型应用落地提供参考与指导。

用AI实现大规模因材施教

随着大语言模型的兴起,如何用AI技术服务各行各业是社会关注的焦点。教育行业是最早开始布局AI领域的行业之一,AI能为教育生态带来何种变化一直备受关注。

「AI带来了重新定义教育行业的机会,大模型技术使得大规模的因材施教真正有了实现的可能。」田密介绍,20年来,好未来一直在探索个性化学习,从线下小班到线上大班,再到AI课,形式不断进化,但教的内容始终是固定的、学生和老师互动较少、颗粒度只能到题目级别。

田密认为,大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。

在AI能力的加持下,「学生自学+AI答疑」的新型学习方式成为广泛的可能。学习者获得优质教学内容的门槛、成本降低,获得的教学内容个性化、精细化程度持续升高,可以实现千人千面的AI教学和答疑辅导,每个学生都能得到最适合自己的学习内容。

以MathGPT为基础,好未来将不断探索AI环境下的学习方式,更好地服务于全球的学习者、数学爱好者,并将经验及时与行业分享,通过AI技术助力教育科技的积极改变。

据田密介绍,随着公测的顺利进行,MathGPT的解题能力将得到持续提升,基于MathGPT的产品级应用也正在加速研发中,将于近期发布。

新款双曲屏手机

抖音古琴搞笑

参考资料:

https://www.mathgpt.com


返回网站首页

本文评论
索尼服软 微软收购动视暴雪最大障碍没了:使命召唤会留在PS平台
在美国FTC被判败诉之后,微软收购动视暴雪的阻力只剩下索尼的反对了,现在这个雷也消除了,索尼也已经服软,跟微软签订了合作协议,微软承诺使命召唤系列游戏会继续留在索尼PS平台上...
日期:07-17
抖音外卖上线全国100城?回应:并未向上述城市的全部商家开放「抖音外卖功能什么时候上线」
7月12日消息,有媒体消息称,抖音外卖上线新城市加速,100个城市用户可以点餐到家。据报道,进入7月后,100个城市的用户第一次可以进入抖音点外卖,其中包括深圳、杭州、武汉、南京等大...
日期:07-12
微软 IE 退役,Internet Explorer 的未来是 Edge 浏览器_microsoft edge不是ie浏览器吗
IT之家 6 月 30 日消息,2022 年 6 月 15 日,对于网上冲浪的人来说,是一个值得纪念的日子,这一天,微软正式停止支持 IE 浏览器,这款浏览器从诞生到宣布关闭整整走过了 27 年。新旧...
日期:07-18
李正茂:2023年WBBA计划发展会员至60家以上
通信世界网消息(CWW)2023年6月29日,2023全球云网宽带产业协会(WBBA)上海论坛盛大召开。全球云网宽带产业协会董事会主席李正茂表示,截至目前,WBBA已发展正式会员30家,其中运营商会员...
日期:07-01
屏幕灯怎么选?除外观价格外重点还要关注这几点_屏幕灯推荐
  19世纪中期,电灯被发明出来,它的出现大大推动了人类文明的进步,而后电灯经历了碳化竹丝、钨丝等多个阶段,20世纪上半期荧光灯的出现使得“灯”开始进入快速的更新迭代阶段,...
日期:06-16
周鸿祎增持360「周鸿祎离婚  三六零股权变更 分手费近90亿元」
4月4日消息,三六零公司在上交所发布公告,公司于近日收到公司实际控制人周鸿祎先生的通知,获悉2023年4月4日周鸿祎先生与胡欢女士经友好协商,已办理解除婚姻关系手续,并就股份分割...
日期:04-04
传惠普TouchPad 32GB版售价599美元与iPad持平(HP touchpad)
新浪科技讯 北京时间5月21日早间消息,据专门报道WebOS设备的网站Precentral透露,一张外泄的沃尔玛库存清单截图显示,沃尔玛将以599.99美元的价格销售32GB版TouchPad平板电脑,这...
日期:07-28
全球最富有女性之一、贝索斯前妻麦肯齐正式与第二任丈夫离婚_亚马逊前妻麦肯齐结婚
  讯 北京时间1月12日上午消息,据报道,最新消息显示,美国亿万富翁、亚马逊创始人杰夫·贝索斯(Jeff Bezos)的前妻麦肯齐·斯科特(MacKenzie Scott)已经和第二任丈夫丹·朱伊特(D...
日期:01-12
华为huawei nova 7 se处理器「华为nova 10 SE手机海外发布: 6.67英寸大屏 66W快充」
华为nova 10 SE手机在南非发布,目前在当地的官网已经能够搜到相关的型号和产品的细节,为 nova 10 系列手机将包括华为 nova 10 Pro、华为 nova 10 和华为nova 10 SE 三款国美...
日期:10-05
滴滴导航崩了,司机、我、我家在哪儿?(滴滴司机关掉导航)
  10月25日消息 今天下午7点有多位网友反映称“滴滴导航崩了”,相关话题也在短时间内迅速登上微博热搜。据悉,在滴滴导航出现故障期间主要体现为滴滴司机接单后在原地不动,...
日期:10-02
俄罗斯质疑美国登月造假:50年前能做到 为何现在反而做不到_美国登月球造假
1969年,美国的阿波罗十一号飞船成功登陆月球,这是人类史上的重要一步,然而多年来围绕美国是否真的成功登月了也产生了很多争议,怀疑美国登月造假的说法几十年来都没停歇,现在俄罗...
日期:05-09
魅族第二批免费换电池机型名单公布_站在南极点上看方向四面八方都是
  8月2日消息,今天,魅族官方宣布,魅族17、魅族17 Pro将作为第二批机型参与免费电池焕新。自即日起15个工作日内,魅族将根据登记顺序联系用户安排免费电池更换,并有序推进新电...
日期:08-03
选购数据库安全审计产品的5大要素是什么_选购数据库安全审计产品的5大要素
  摘要:近年来,有关数据库的安全事故可谓层出不穷,诸如银行内部数据信息泄露造成的账户资金失密、信用卡信息被盗用导致的信用卡伪造、企业内部机密数据泄露引起的竞争力下...
日期:07-29
全国多地商超、理发店、银行网点有序营业,临时营业时间用百度地图可查
  随着多地政府推动企业复工复产,在疫情较轻的地区,一些涉及民生所需的商店和场所已逐步恢复营业。为帮助用户及时、准确了解周边商户的营业情况,近日,百度地图上线了“复工...
日期:08-19
难度史诗级!海上超100米高空安装123米风机叶片有多难:现场揭秘_海上风机如何固定
6月27日消息,全球首台16兆瓦风电机组,目前正在福建平潭外海风电场进行安装,今天凌晨,风机主机机舱启动吊装工作,主机机舱已吊装到位。主机机舱吊装完成后,将进行风机叶片的单叶片...
日期:06-27
荣耀 X40 GT 5G 新机官宣:性能跃级标杆
10月8日消息:荣耀手机官方微博今日上午宣布,荣耀 X40 GT 新机即将登场。官方海报显示,荣耀 X40 GT 支持5G,号称「性能跃级标杆」。据了解,上个月荣耀有一款新机通过3C认证,认证信...
日期:10-21
苍兰诀演员表电视猫「爱奇艺电视剧2022年度盘点:《苍兰诀》第一 《人世间》第四」
12月26日,爱奇艺公布了2022年度电视剧盘点,来看看你爱的剧上榜了吗?又一电商巨头崛起2021年安卓手机趋势根据热度榜”榜单,《苍兰诀》拿下热度第一,前五名还有《卿卿日常》《风吹...
日期:12-26
友盟+2019UBDC即将开幕,贾扬清确认出席并将发表重磅演讲
  贾扬清,作为AI届人人膜拜的技术大牛,在深度学习框架领域做出过卓越贡献。他是Caffe的作者,TensorFlow的作者之一,同时还是Pytorch1.0的合作领导者和Onnx的创始人。贾扬清曾...
日期:05-01
双洗漱台图片「融合创新,COLMO双洗站新物种发布,改变居家生活未来式」
5 月 20 日,国际高端AI科技家电品牌COLMO于杭州天目里正式发布新品COLMO双洗站,该产品将洗烘一体机、扫拖机器人两大产品形态融合创新,以新形态、新物种满足人们不同生活场景下...
日期:05-25
时隔三年苹果再度对合同工“动刀” 据称约有100名招聘人员被裁_apple合同工
来源:每日经济新闻   记者/蔡鼎; ;   编辑/兰素英;;   彭博社援引知情人士消息称,苹果公司(AAPL,股价173.19美元,市值2.78万亿美元)在过去一周解雇了约100名合同工制招聘人...
日期:08-19