您的位置:首页 > 互联网

微软研究人员推出WaveCoder:增强指令调优与精炼数据生成

发布时间:2024-01-02 11:04:52  来源:互联网     背景:

划重点:

1. WaveCoder模型通过广泛而多才的增强指令调优,在不同的代码相关任务上表现出色。

瀚博半导体钱军简历

2. 引入CodeOcean数据集,包含4个通用代码相关任务的20,000个指令实例,旨在增强指令调优的效果并提高模型的泛化能力。

3. 提出了基于LLM的生成器-鉴别器数据处理框架,通过对开源代码的分类生成多样、高质量的指令数据。

8月底,他在B站发布了自己的怒喵科技的第一批产品

1月2日 消息:近期的研究表明,通过在高质量指令数据集上进行微调,生成的模型可以在广泛的任务上展现出色的能力。然而,现有的指令数据生成方法通常会产生重复数据,并且在数据质量上不够可控。

微软研究人员最新研究通过将指令数据分类为4个与代码相关的任务,并提出了基于LLM的生成器-鉴别器数据处理框架,从开源代码中生成多样、高质量的指令数据,从而扩展了指令调优的泛化能力。

智能电视自带的和盒子对比

为了验证这一方法,研究人员引入了CodeOcean数据集,其中包含20,000个指令实例,涵盖了4个通用的代码相关任务,旨在增强指令调优的效果并提高模型的泛化能力。随后,研究人员提出了WaveCoder模型,这是一个经过广泛而多才的指令调优的Code LLM,专为增强指令调优而设计。实验证明,WaveCoder模型在相同微调规模下在不同的代码相关任务上优于其他开源模型,并在以往的代码生成任务中表现出高效性。

为了更好地生成指令数据并控制数据质量,研究中提出了基于LLM的生成器-鉴别器框架。该框架通过对开源代码进行分类生成更具多样性和高质量的指令数据。在训练过程中,通过生成和鉴别,该方法使数据生成过程更具定制性和可控性。文章详细介绍了从收集原始代码到生成指令数据再到训练模型的整个流程,强调了提出的方法在提高代码LLM性能方面的重要贡献。

该研究引入了多任务指令数据方法、CodeOcean 和 WaveCoder 模型来增强 Code LLM 的泛化能力。所提出的 LLM 生成器-鉴别器框架被证明可以有效生成真实的、多样化的指令数据,有助于提高各种代码相关任务的性能。未来的工作可能会探索不同任务和更大数据集之间的相互作用,以进一步增强单任务性能和泛化能力。

马斯克表态

论文网址:https://arxiv.org/pdf/2312.14187.pdf


返回网站首页

本文评论
CCF 218Club 正式成立,蚂蚁技术研究院独家支持_蚂蚁科技研究院
5月18号,2023在浙江温州举行的CCF青年精英大会上,蚂蚁技术研究院联合中国计算机学会(以下简称“CCF”)举行CCF218Club启动仪式。CCF秘书长唐卫清为218Club授旗,CCF青年工作委员会...
日期:05-19
李强主持召开平台企业座谈会
通信世界网消息(CWW)中共中央政治局常委、国务院总理李强7月12日下午主持召开平台企业座谈会,听取对更好促进平台经济规范健康持续发展的意见建议。中共中央政治局常委、国务院...
日期:07-13
5·17在现场·体验智能宽带新生活
  还在为wifi信号无法覆盖全家而抱怨?   还在为多人同时上网网络卡顿而暴怒?   还在为宽带故障无法及时修复而愤懑?   你所遭遇的或经历的这些苦恼,   伴随着电...
日期:02-09
多家平台收入重回增长,但互联网广告的至暗时刻真的过去了吗?
声明:本文来自于微信公众号 深响(ID:deep-echo),作者:吕玥,授权转载发布。随着各大公司2022年财报的发布收尾,一些全年性的趋势也浮出水面。尽管去年是众所周知的艰难,但在互联网...
日期:04-08
董明珠的迷:格力的那套办法「董明珠称格力不会放弃手机业务:消费者反馈很好!」
快科技6月8日消息,格力手机已经停更许久,官网也挂了,因此被外界传闻手机团队已经解散。腾讯有多少sea股份近日,董明珠本人在接受采访时表示,觉得这个传闻很好笑,不知道哪里来的声...
日期:06-08
华为云BigData Pro大数据解决方案荣获行业年度金奖(华为大数据开发)
  日前,在2019年中国数据与存储峰会年度颁奖晚宴上,华为云BigData Pro大数据解决方案荣获“2019年度大数据产品金奖”,再一次证明了华为云在大数据领域的不凡实力,向业界展现...
日期:06-04
短视频/直播运营必知的80个专业名词_短视频直播运营是做什么的
声明:本文来自微信公众号“晏涛三寿”(ID:yantao-219),作者:晏涛,,授权转载发布。近年来,短视频已成为“兵家必争之地”。据统计,我国短视频用户规模由2016年的1.9亿人增长至2022年9...
日期:02-02
苹果华为首发「苹果一发布,华为稳了、微软傻了」
这次发布会,并非毫无亮点这一届苹果秋季发布会,罕见地没有占领热搜。应该说,13日上午11时的前50条热搜,都和苹果没关系。或许,正如大多数评论说的那样:iPhone15,就这。但华为不急,微...
日期:09-13
小米9T系列宣布:6月12日发(小米9月新品)
  6月4日消息,小米官方推特宣布将于6月12日发布小米9T系列。根据Roland Quandt透露的信息,小米9T系列包含小米9T和小米9T Pro两款,它们分别对应的是国行版红米K20和K20 Pro...
日期:06-24
阿里巴巴吴泳铭年龄「阿里集团CEO吴泳铭兼任淘天CEO,戴珊走向幕后」
通信世界网消息(CWW)12月20日,阿里巴巴集团宣布,阿里巴巴集团CEO、淘天集团董事长吴泳铭兼任淘天集团CEO。自此,自此,吴泳铭将同时担任阿里巴巴集团、淘天集团和阿里云智能集团三...
日期:12-21
苹果头显发布,MR头显能否开启苹果公司新的“iphone时刻”?|钛度热评
6月6日,苹果公司在2023年全球开发者大会(WWDC)上发布了首款混合现实(MR)头显Apple Vision Pro,引起广泛关注。苹果本次发布的MR头显有哪些特点?其与时下主流的Quest、Pico等XR头显...
日期:06-25
国产Model 3/Y车型大幅降价?特斯拉回应_特斯拉model y降价对国产车影响
凤凰网科技讯 9月30日消息,据媒体报道,特斯拉国产车型Model 3和Model Y将大幅降价,特斯拉回应凤凰网科技称,这是“不实信息”。北京疫情防控点此前有消息称,特斯拉在华主销车型Mo...
日期:10-05
特斯拉中国推出“新年福利” 保险补贴、交付激励累计可减10000元_特斯拉 购车补贴
1月1日 消息:2023年第一天,特斯拉中国宣布推出“新年福利”,限时保险补贴4000元,限时交付激励6000元。电商下乡的意义2023年1月1日(含)至2023年2月28日(含)期间,完成交付的Model3...
日期:01-01
CDPR赔偿1267万!《赛博朋克2077》集体诉讼案终于告一段落「赛博朋克2077侵权」
早在2020年,《赛博朋克2077》的开发商CDPR就遭到了全球投资者权益律师事务所罗森律师事务所的诉讼,旨在为CDPR的投资者追讨损失。该诉讼指出,CDPR存在发布虚假、误导性信息的行...
日期:01-06
2025年起采用北美充电标准 日产汽车同特斯拉达成协议
IT之家 7 月 19 日消息,日产汽车 7 月 19 日宣布同特斯拉达成协议,从 2025 年开始采用北美充电标准(NACS),旨在为日产汽车车主的电动汽车充电提供更多选择。IT之家从官方获悉,从 2...
日期:09-20
苹果禁用cookie是什么意思「苹果禁用 ChatGPT 和 Copilot,或正开发自己的语言模型」
5月22日 消息:出于安全考虑,不少公司正在禁止 ChatGPT,而苹果只是其中之一。据《华尔街日报》消息,苹果禁止员工使用的包括ChatGPT和微软的编码工具Copilot。报道称,该公司担心...
日期:05-22
荣耀play6t「荣耀Play6C正式发布 起售价1099元」
中关村在线消息:今日荣耀高性价比机型荣耀 Play6C正式发布,并且已经开启预售,起售价为1099元,将于10月13日正式发布。苹果IPad pro新款直接上架硬件配置方面,荣耀Play6C配有6.5英...
日期:10-09
为小米14让路 小米13 Pro降价:12 256G到手4899元
快科技10月15日消息,据爆料,小米14系列最快会在10月底登场,目前该系列已经获得入网许可,包含小米14和小米14 Pro两款机型。三星galaxy s23 发布时间华为mate50上架时间随着小米1...
日期:10-15
vivo手机天玑1000怎么样可以买吗「首发天玑9300定了!vivo X100标准版参数曝光:内存影像防水全面升级」
快科技11月2日消息,vivo在昨天官宣,将于11月13日在北京举行X100系列新品发布会。博主@数码闲聊站今天爆料了vivo X100标准版的参数,确定了将会首发搭载联发科最新旗舰处理芯片...
日期:11-02
英雄联盟神龙尊者小小卡莎限时回归 小小卡莎怎么解锁「神龙尊者卡莎手游」
英雄联盟中的【神龙尊者 小小卡莎】得到了很多玩家的喜爱,目前官方再次宣布【神龙尊者 小小卡莎】限时回归,很多玩家还不清楚怎么解锁,下面就来为大家分享一下。facebook赔偿亲...
日期:08-11