您的位置:首页 > 互联网

数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品

发布时间:2023-08-14 20:21:04  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色 ,授权转载发布。

AI生成的指令微调羊驼大模型,数学能力超ChatGPT——

微软最新开源大模型WizardMath来了。

图片

如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant1、PaLM2-540B等一众大模型——

并且是在参数只有700亿,远不及后三者的情况之下。

图片

HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。

比如解决下面这道四次多项式方程:

图片

或者是一道简单的微积分:

图片

亦或者是稍微修改过的拉格朗日方程推导:

图片

它都全部正确(过程也不需要等太久)。

有网友向作者表示:

界面新消费论坛 | 苏宁易购集团副董事长孙为民:下

效果真的很惊人,感谢你们对开源LLM的贡献。

图片

目前,相关代码、复现方式以及论文也都开源或上线,GitHub短短几天已揽获4.8k标星

图片

那么,WizardMath究竟是如何做到的?

用AI生成的指令增强大模型能力

OpenAI的大模型(InstructGPT、GPT-4等)能够取得巨大成功、去执行各种复杂和多样化的任务,一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。

然而,不是谁都能像这家公司一样获得这样的指令数据集。

一是因为整个注释过程极其昂贵且耗时,二是人工难以创建出足够比例的高难度指令。

因此,开发出一种成本相对较低的、大规模开放域指令自动生产方法,成为当下指令调优语言模型的关键。

在此,作者将他们的方法命名为Evol Instruction

它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。

具体而言,Evol Instruction分为指令进化器和指令消除器

其中指令进化器可通过深度进化(蓝线)或广度进化(红线)两种路径,将简单指令升级为更复杂的指令或创建一条全新指令。

具体执行哪一条?随机选择就好。

图片

其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:

添加约束(add constraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increase reasoning steps)和使输入复杂化(complicate input)。

由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。

以下是一个具体示例,该方法从“1+1=?”开始,最终通过以上步骤自动生成了相当多的新指令。

图片

通过重复这一生成过程,最终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。

在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,最终获得25万条指令。

为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA7B模型,最终得到WizardLM,结果WizardLM的性能明显优于Vicuna。

(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)

此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。

基于此,作者又利用Evol Instruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath

其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant1、PaLM2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM2之后。

以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)。

图片

团队介绍

本文共9位作者,全华人。

一作有3位:

Can Xu,微软亚洲互联网工程院S+D NLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;

Qingfeng Sun, Microsoft Research科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为Microsoft Bing和Office365贡献了核心深度模型;

Kai Zheng,Microsoft Research科学家,研究方向为自然语言处理、搜索和推荐排名,同样为Microsoft Bing和Office365贡献了核心深度模型。

图片

通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业。

另还有一位作者Jiazhan Feng,是北大学生,这篇合著论文是TA在微软实习时产出的。

项目主页:https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

论文地址:

https://arxiv.org/abs/2304.12244(WizardLM)

历年安卓手机拍照性能排行榜

https://arxiv.org/abs/2306.08568(WizardCoder)


返回网站首页

本文评论
经济日报:生鲜电商“烧钱”烧不出美好未来「生鲜电商发展问题」
  来源:经济日报腾讯持股美团  最近,生鲜电商龙头企业每日优鲜备受关注,先后经历极速达业务暂停、APP无法使用、北京市消协约谈、股价跳水等,引发了市场对“生鲜电商是否还...
日期:09-08
airpods pro听语音断断续续「AirPods Pro 2再翻车:用户反馈存在音频同步问题」
自从苹果推出AirPods Pro 2以来,这款理论上应该是苹果目前最强TWS耳机的产品,就被各种让人摸不着头脑的问题环绕。近日,又有用户在Reddit上反馈,称自己的AirPods Pro 2出现了音...
日期:10-14
今年端午节放假调休:休三上六 高速不免费_今年端午节放假高速公路免费吗?
五一假期刚结束不久,端午节就要到来了,接连两个月都有假期,不少小伙伴直呼过瘾。不过,今年的端午节需要调休。今年端午节是6月22日,但根据国务院公布的全年法定节假日安排,今年端...
日期:05-21
Outlook将很快支持对邮件作出表情反应而不发送回复「outlook发邮件未响应」
一段时间以来,人们如何通过电子邮件进行互动已经有点僵化,从如何发送电子邮件到撰写回复。虽然说清楚并确保将信息信息正确地转达给收件人是极其必要的,但在有些情况下,回应可能...
日期:10-18
拼多多财报会谈及海外业务:不会简单重复别人做过的事情
  讯 8月29日晚间消息,拼多多发布了2022Q2财报。在财报的电话会议上,拼多多正在尝试的海外业务受到与会投资人的关注。拼多多CEO陈磊对此表示,作为一家年轻的创业公司,拼多多...
日期:08-31
一秒搞定英语单词,糖猫词典笔让学习更高效_糖猫词典笔使用教程
  在技术不断快速发展的环境下,孩子弄懂英语单词的方式也发生了天翻地覆的变化,从最原始的查阅英汉词典到使用手机APP,再到如今使用词典笔快速查词。查词方式的进步,也让孩子...
日期:05-24
魅族申请“魅GPT”“FlymeGPT”商标「魅族申请魅蓝商标」
7月7日 消息:天眼查App显示,近日,珠海市魅族科技有限公司申请“魅GPT”“FlymeGPT”商标,国际分类为科学仪器,当前商标状态均为申请中。该公司成立于2003年3月,法定代表人为沈子...
日期:07-07
搜狗AI主播_搜狗AI合成主播“雅妮”首次亮相
  8月9日,在北京亦创国际会展中心的第三届中国“网络文学+”大会开幕式暨高峰论坛上,。   在现场,让观众直接感受到了AI合成主播和真人主播,几乎可以达到真假难辨的程度,这...
日期:10-24
Twitter获得Tweet商标 未透露是否支付转让费_购买twitter
  10月11日消息,据国外媒体报道,微博服务提供商Twitter即将获得tweet注册商标权。周一,网络广告服务商Twittad首席执行官詹姆斯·埃利亚森(James Eliason)在接受采访时表示,T...
日期:07-23
韩寒携手中视频共同打造视频时代的“杂志”_韩寒电子杂志
  继写书、创办杂志和拍电影之后,韩寒又加入了中视频创作的赛道。1月18日,韩寒正式代言西瓜视频,双方宣布联合发起视频频道"再和世界谈谈",计划与众多中视频创作人共同打造视...
日期:08-08
胖东来董事长于东来宣布退休:雷军称其为中国零售业神一般存在!
快科技6月22日消息,近日河南许昌胖东来董事长于东来宣布退休。于东来说:上次我们出去的时候,我说我退休了,然后把精力用在量力而行的去建设、传播生活的理念方面,企业经营80%放手...
日期:06-22
苹果下一代新款 Apple TV 将于 2024 上半年推出 配备更快的处理器「apple tv现在几代」
1月19日消息:根据彭博社的一份新报告,苹果公司正在开发一款配备更快的处理器的Apple TV。该机顶盒将有一个新的芯片,预计将在2024年上半年问世。新的Apple TV的设计将与目前的...
日期:01-19
ios oculus app「Oculus 创始人称苹果首款头显「非常好」 功能远远超过竞争对手」
5月15日消息:WSJ 上周五概述了苹果长期传言中的 AR / VR 头戴式设备项目,证实了之前由彭博社的 Mark Gurman 和 The Information 的 Wayne Ma 报道的几个细节。报道显示,苹果...
日期:05-15
物联网技术应用是_物联网成传统行业下一场技术革命,平安科技入场
  从地平线上裹着朝阳澎湃而来,物联网正在改造我们的世界,它通过联系物与人而不需要人的交互来进行数据传递,创造了一种前所未有的效率和便利。可是,你真的了解物联网的背后...
日期:09-13
苹果 m3「苹果M3可能要黄了!为A17让路」
据报道,苹果公司原计划在今年推出全新一代M3芯片,应用于新一代MacBook Air、13英寸MacBook Pro、24英寸iMac、Mac mini等产品,但因台积电3nm工艺的技术难题,量产和产能无法满足...
日期:05-04
合杭高铁湖杭段全线开始精调,设计时速 350 公里(合杭高速铁路)
  据长三角铁路发布,近日,合杭高铁湖杭段全线开始精调,预计到 3 月下旬,这条全长 137.8 公里的线路精调工作将全面完成。   本次精调主要对合杭高铁湖杭段正线 255.32 单线...
日期:07-17
互联网咨询服务行业电话咨询三大痛点,虚拟小号一招解决
  21世纪的经济是由互联网驱动的全球化经济,任何产业都可以与互联网结合用它来开辟新的市场,咨询服务行业也不例外。近年来,互联网咨询服务行业快速发展,并随着科技的发展其...
日期:07-03
微博推出《娱乐自媒体号违规行为界定及处罚措施(试行)》,包含七大违规类型
  9 月 1 日消息 新浪微博宣布,为落实中央网信办《关于进一步加强“饭圈”乱象治理的通知》相关要求,建立健全“饭圈”乱象长效治理机制,规范娱乐自媒体号行为,从严处置违法...
日期:07-19
#拍二次元就选EOS# Cosplay摄影科普大机密
  春节过后,本以为可以磨拳准备2020年横扫各大漫展,拍摄美美的小姐姐。结果突发的疫情让我也有了一些时间,可以在家整理一下过去没来得及后期的片子,回顾一下参加过的漫展,也...
日期:12-19
央视315曝光骚扰电话 科大讯飞倡导科技应造福人类
  3月15日,央视一年一度的“315”晚会,先后曝光了科技、卫生、医疗、金融等不同领域的黑灰产。其中,滥用AI技术的骚扰电话成为了大众最为关心的话题,随后涉事企业以及股东、...
日期:07-10