您的位置:首页 > 互联网

数学能力超过ChatGPT!上海交大计算大模型登开源榜首_网易订阅_上海交大计算机教授排名

发布时间:2023-09-23 03:41:08  来源:互联网     背景:

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

国产数学大模型,能力已经超过了ChatGPT!

最新榜单中,上海交大GAIR实验室出品的Abel专有大模型:

上海交大计算中心

准确率高达83.6%,在开源模型中位列第一。



据团队介绍,该模型是用挪威数学家尼尔斯·阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。



在GSM8k数据集上,70B参数量的Abel碾压所有开源模型,还超过了ChatGPT。

甚至在新数据集TALSCQ-EN上,Abel的表现比GPT-4还要强。



而实现这样效果的Abel,成分可以说是十分“单纯”:

  • 没有使用工具
  • 没有使用数学领域的大规模预训练数据
  • 没有使用奖励模型
  • 没有使用RLHF
  • 仅使用有监督精调(Supervised Fine-tuning,SFT)

那么Abel的效果究竟怎么样呢?

成绩超越开源模型SOTA

这里我们选择同样是开源的Llama-2来和Abel对比。

首先来看下这个鸡兔同笼问题的变体:

Brown由牛和鸡一共60只,鸡的数量是牛的两倍,一共有多少条腿?



这道题Llama-2出师不利,而且不是计算错误,是逻辑上就有问题:



Abel则成功地解决了这个问题。



再来看下一个问题:

12,21,6,11和30的中位数与平均数的和是多少?



2014东风景逸x 5现在还能卖多少钱

两个模型都正确理解了所涉及的概念,但Llama还是在计算和排序上出了错。



而Abel依旧是正确地做出了这道题:

origin os第三批公测



再从测试数据上看看Abel的表现。

首先是OpenAI提出的GSM8k数据集(大概是美国高中难度),这份榜单的前十名,Abel占了三个(不同参数规模)。

开源模型当中,70B规模的Abel打败了曾经的SOTA——WizardMath。

如果把商业闭源模型算进来,Abel也仅次于GPT-4、Claude-2和PaLM-2-Flan这些最著名的模型。

甚至ChatGPT也不是Abel的对手。


△地球代表开源模型,锁代表闭源模型

在难度更高的MATH(竞赛题目)数据集中,开源模型的前三名被三个规模的Abel包揽,加上闭源也仅次于Google和OpenAI的产品。



暴雪网易合作到什么时候

研究团队还使用了新数据集TALSCQ-EN对Abel进行测试,结果超过了GPT-4。

那么,研究团队是怎么调教出这样一款高性能模型的呢?

“保姆级”微调训练策略

核心奥义就是高质量的训练数据。

Abel使用数据是经过精心策划的,不仅包含问题的答案,还要能告诉模型找到正确答案是的方法。

为此,研究团队提出了一种叫做家长监督(Parental Oversight)的“保姆级”微调训练策略。

在家长监督的原则之下,团队仅通过SFT方式就完成了Abel的训练。

为了评价Abel的鲁棒性,研究团队还用GPT4对GSM8k中的数字进行了修改,测试Abel是否依然能解出正确的答案。

结果显示,在调整版GSM8k数据集下,70B参数的Abel鲁棒性超过了同等规模的WizardMath。



元旦高速免费吗2023年最新消息视频

在Abel的介绍的最后,研究团队还留下了一个彩蛋:

Abel的下一代,将进化成为Bernoulli(伯努利)



不过团队并没有对其中的含义进行说明,我们不妨期待一番。

团队简介

Abel由上海交通大学GAIR(生成式人工智能研究组)团队打造。

该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。

该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。

对这个数学模型感兴趣的读者,可以到GitHub页面详细了解。

GitHub页面:
https://github.com/GAIR-NLP/abel


返回网站首页

本文评论
泰比特将携最新款新国标电动车智能中控亮相第37届苏交会
  2019年10月25日-27日,由江苏省自行车电动车协会、中自协助力车专委会、江苏省自行车有限公司、江苏省交通安全协会主办的第37届中国江苏国际新能源电动车及零部件交易会...
日期:04-10
腾讯向股东派发9.58亿股美团股票,腾讯总裁刘炽平卸任美团董事「美团 腾讯 股份」
2022年11月16日消息,腾讯控股公告显示,将按合资格股东持有每10股股份获发1股美团B类普通股的基准,向于记录日期名列本公司股东名册上股东按彼等当时各自于本公司之持股比例,以实...
日期:11-24
除湿还是制冷 空调哪个模式最省电?_空调是制冷模式省电还是除湿模式省电
空调有除湿模式和制冷模式,两个模式都能降低室内温度,哪个更省电呢?一般情况下,空调的除湿模式相对于制冷模式更省电。在除湿模式下,空调主要通过降低室内湿度来提供舒适的环境。...
日期:07-14
一帮年轻人开启的AIGC新纪元,五年后什么样?丨全球青年科技领袖峰会即将到来
ChatGPT,无疑是最近被讨论最多的话题。随之而来的,是其背后 OpenAI 这家“小公司”的彻底破圈。在科技大厂的风起云涌之间,在全球热切目光的聚焦之下,我们发现,创造 ChatGPT 神话...
日期:03-12
掌上明珠家居《超级抢工厂》盛大开启「超级抢手」
5 月 20 日至 6 月 19 日掌上明珠家居超级抢工厂,抢工厂直供,享底价狂欢。全国 2000 余家专卖店,上万件家具产品,件件都是工厂底价。 整家设计拎包入住, 19999 元抢 20 件成品家...
日期:05-23
黑产抢注域名坑了百度百科 政府学校需注意网站安全_域名被列入黑名单
  最近百度又摊上了一档子事。   有文章指出,在百度中搜索广州的很多小学和幼儿园的名字,进入百度百科页面,点击参考文献中的链接,进入的是色情网站。对此,百度百科非常重视...
日期:11-03
推特用户减少「推特2年内将流失5%用户  预计超过3200万人」
12月14日 消息:据国外媒体报道,市场研究公司Insider Intelligence表示,马斯克先生对推特的诸多改变将导致推特的全球月活跃用户在2023年下降至近4%,总计超过3200万人;广告收入...
日期:12-14
四家伙伴发布基于openGauss的数据库一体机,openGauss Developer Day 2023召开「opengauss数据库支持以下哪些api驱动」
通信世界网消息(CWW)5月25日-26日,以“聚数成峰,共赢未来”为主题的openGauss Developer Day 2023(openGauss开发者大会2023)在北京举办。本届大会在中国计算机学会、国家工业信息...
日期:05-27
体验再度升级,华硕天选X 2023高性能台式机火热预售中!「华硕天选台式怎么样」
焕新升级,华硕天选X2023 携全新的外观设计、强悍的性能配置再度归来!刷新玩家的使用体验,满足玩家的游戏想象,成为玩家畅玩游戏的实力后备军!华硕天选X2023 高性能台式机现已在华...
日期:04-10
德邦快递是韵达吗_服务无休,中通韵达德邦三家快递公司宣布“春节不打烊”
  12 月 27 日消息,12 月 26 日,中通快递和韵达速递相继发布服务公告,宣布 2022 年“春节不打烊”,以满足节日期间的寄递需求,保障防疫和民生物资的畅通运输。此前,德邦快递已...
日期:02-25
警告!企业微信上千万别点这个「企业微信可信不」
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:谢萌simon,授权转载发布。如果你在企业微信上收到一些不明文件,千万别点。因为,它很有可能是伪装成用户需求的病毒,会让你...
日期:05-30
特斯拉车顶维权女车主败诉 曾在前年大脑上海车展
近日,法院对张女士针对特斯拉提起的两宗诉讼作出裁决,驳回了张女士的全部诉求。荣耀X20中关村据特斯拉中国相关人士介绍,这两宗诉讼与张女士所称的“刹车失灵”事件有关,历经两...
日期:05-26
德施曼和凯迪仕智能锁哪个好_德施曼&明源云采购 | 强强联合,加速发力B端合作,品牌智能锁成供应链强动力
  2021年7月28日,智能锁领军品牌德施曼与明源云采购战略合作签约仪式在杭州德施曼总部顺利召开。明源云董事长高宇、明源云浙江区域总裁吴迪莱、明源地产研究院副院长吴...
日期:09-15
男子围观火灾拍视频结果着火的是自家 还讨论是谁家倒霉:网友直呼尴尬
男子围观火灾救援,还拍着视频,最后真的是太尴尬了...TikTok搬入硅谷,开始从Facebook等公司挖人近日,浙江衢州一段男子拍火灾意外发现是自家的视频引起网友关注。据当事人称:自己...
日期:07-01
24家出版社欲联名起诉京东:抵制无效将对簿公堂
  由京东挑起的网商和出版社之间的矛盾愈加激烈。京东商城无视24家出版社的联合声明,继续进行图书4折促销活动,而当当网和卓越亚马逊也加入其中。出版社方面昨日接受本报采...
日期:07-28
小米13官网评价超100万、好评率达99.9%「小米好评模板」
7月5日消息,小米13上线也半年了,从官网来看,已经收到了超过一百万条评价,总评分达到99.9%,可谓是小米目前最稳定的手机之一。小米13的起售价为3999元,是一款小尺寸全能旗舰手机,拥...
日期:07-05
单飞的钉钉,如何骑到AI的背上?_钉钉怎么走
「核心提示」钉钉被认为有望跻身阿里上市第二梯队,从云钉一体到各自攀登,钉钉该如何校准新的定位?作者 | 陈法善编辑 | 邢昀“云钉一体”成为过去式,8月22日举行的钉钉2023生态...
日期:08-25
微软发布 Exchange 服务器“2022 版千年虫”问题官方修复程序
  1 月 3 日消息,微软 Exchange 服务器无法正确解析 2022 年的新日期,导致出现了无法处理邮件的问题,被用户调侃为“2022 版千年虫”。   FIP-FS 扫描引擎加载失败 – 无...
日期:09-26
移动“飞聊”或9月底亮相 期待一炮打响_飞聊最新消息
  据经济之声《天下公司》报道,中国移动即将发布新产品“飞聊”,相比于已经归属于南方基地的“飞信”而言,“飞聊”在中移动内部的地位更加重要,其主导权不仅直属于中移动集...
日期:07-23
苹果音乐数据「苹果Apple Music歌曲数量达到1亿首里程碑」
  IT之家 10 月 3 日消息,苹果今日宣布,其 Apple Music 音乐平台的歌曲达到了 1 亿首。  苹果在官方新闻稿中称,从 iTunes 的发明和初代 iPod 首次亮相 21 年以来,我们已经...
日期:10-05