您的位置:首页 > 互联网

发布一天,Code Llama代码能力突飞猛进,微调版HumanEval得分超GPT-4「code=v1」

发布时间:2023-08-27 15:29:50  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:Synced,授权转载发布

昨天(8月25日)的我:在代码生成方面开源 LLM 将在几个月内击败 GPT-4。现在的我:实际上是今天。

昨天,Meta 开源专攻代码生成的基础模型Code Llama,可免费用于研究以及商用目的。

Code Llama 系列模型有三个参数版本,参数量分别为7B、13B 和34B。并且支持多种编程语言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

Meta 提供的 Code Llama 版本包括:

  • Code Llama,基础代码模型;

  • Code Llama-Python,Python 微调版;

  • Code Llama-Instruct,自然语言指令微调版。

就其效果来说,Code Llama 的不同版本在 HumanEval 和 MBPP 数据集上的一次生成通过率(pass@1)都超越 GPT-3.5。

此外,Code Llama 的「Unnatural」34B 版本在 HumanEval 数据集上的 pass@1接近了 GPT-4(62.2% vs67.0%)。不过 Meta 没有发布这个版本,但通过一小部分高质量编码数据的训练实现了明显的效果改进。

图源:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天刚过,就有研究者向 GPT-4发起了挑战。他们来自 Phind(一个组织,旨在构造一款为开发人员而生的AI 搜索引擎),该研究用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。

Phind 联合创始人 Michael Royzen 表示:「这只是一个早期实验,旨在重现(并超越)Meta 论文中的「Unnatural Code Llama」结果。将来,我们将拥有不同 CodeLlama 模型的专家组合,我认为这些模型在现实世界的工作流程中将具有竞争力。」

两个模型均已开源:

i5-7500显卡

研究者在 Huggingface 上发布了这两个模型,大家可以前去查看。

  • Phind-CodeLlama-34B-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-v1

  • Phind-CodeLlama-34B-Python-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1

接下来我们看看这项研究是如何实现的。

微调 Code Llama-34B 击败 GPT-4

codemain

我们先看结果。这项研究用 Phind 内部数据集对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调,分别得到两个模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1。

新得到的两个模型在 HumanEval 上分别实现了67.6% 和69.5% pass@1。

作为比较,CodeLlama-34B pass@1为48.8%;CodeLlama-34B-Python pass@1为53.7%。

而 GPT-4在 HumanEval 上 pass@1为67%(OpenAI 在今年3月份发布的「GPT-4Technical Report」中公布的数据)。

图源:https://ai.meta.com/blog/code-llama-large-language-model-coding/

图源:https://cdn.openai.com/papers/gpt-4.pdf

谈到微调,自然少不了数据集,该研究在包含约8万个高质量编程问题和解决方案的专有数据集上对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调。

该数据集没有采用代码补全示例,而是采用指令 - 答案对,这与 HumanEval 数据结构不同。之后该研究对 Phind 模型进行了两个 epoch 的训练,总共有约16万个示例。研究者表示,训练中没有使用 LoRA 技术,而是采用了本地微调。

此外,该研究还采用了 DeepSpeed ZeRO3和 Flash Attention2技术,他们在32个 A100-80GB GPU 上、耗时三个小时,训练完这些模型,序列长度为4096个 token。

此外,该研究还将 OpenAI 的去污染(decontamination)方法应用于数据集,使模型结果更加有效。

众所周知,即便是非常强大的 GPT-4,也会面临数据污染的困境,通俗一点的讲就是训练好的模型可能已经接受评估数据的训练。

这个问题对 LLM 非常棘手,举例来说,在评估一个模型性能的过程中,为了进行科学可信的评估,研究者必须检查用于评估的问题是否在模型的训练数据中。如果是的话,模型就可以记住这些问题,在评估模型时,显然会在这些特定问题上表现更好。

这就像一个人在考试之前就已经知道了考试问题。

为了解决这个问题,OpenAI 在公开的 GPT-4技术文档《 GPT-4Technical Report 》中披露了有关 GPT-4是如何评估数据污染的。他们公开了量化和评估这种数据污染的策略。

具体而言,OpenAI 使用子串匹配来测量评估数据集和预训练数据之间的交叉污染。评估和训练数据都是通过删除所有空格和符号,只保留字符(包括数字)来处理的。

对于每个评估示例,OpenAI 随机选择三个50个字符的子字符串(如果少于50个字符,则使用整个示例)。如果三个采样的评估子字符串中的任何一个是处理后的训练样例的子字符串,则确定匹配。

这将产生一个受污染示例的列表,OpenAI 丢弃这些并重新运行以获得未受污染的分数。但这种过滤方法有一些局限性,子串匹配可能导致假阴性(如果评估和训练数据之间有微小差异)以及假阳性。因而,OpenAI 只使用评估示例中的部分信息,只利用问题、上下文或等效数据,而忽略答案、回应或等效数据。在某些情况下,多项选择选项也被排除在外。这些排除可能导致假阳性增加。

关于这部分内容,感兴趣的读者可以参考论文了解更多。

silver glow investments limited

论文地址:https://cdn.openai.com/papers/gpt-4.pdf

不过,Phind 在对标 GPT-4时使用的 HumanEval 分数存在一些争议。有人说,GPT-4的最新测评分数已经达到了85%。但 Phind 回复说,得出这个分数的相关研究并没有进行污染方面的研究,无法确定 GPT-4在接受新一轮测试时是否看到过 HumanEval 的测试数据。再考虑到最近一些有关「GPT-4变笨」的研究,所以用原始技术报告中的数据更为稳妥。

不过,考虑到大模型评测的复杂性,这些测评结果能否反映模型的真实能力依然是一个有争议的问题。大家可以下载模型后自行体验。

参考链接:

https://benjaminmarie.com/the-decontaminated-evaluation-of-gpt-4/

https://www.phind.com/blog/code-llama-beats-gpt4


返回网站首页

本文评论
去年全国结婚登记量创新低背后:多地结婚年龄上涨,专家称年轻人婚育正推迟
民政部最新发布的统计季报数据显示,去年全国结婚登记量为683.3万对,再次创下民政部自1986年以来公布结婚数据的历史新低。从民政部历史数据来看,结婚数自2013年达到1346.9万对...
日期:06-13
小米13概念机「消息称小米 13 Ultra 旗舰手机将全球销售:搭载徕卡影像」
IT之家 3 月 13 日消息,2021 年小米推出了小米 11 Ultra 开始受到关注,该机搭载超大影像模组。后面小米推出了小米 12S Ultra 时,搭载了徕卡影像,受到了更多好评,但小米没有在全...
日期:03-13
中国联通启动2023家庭智能网关集采:规模约为1190万台_联通智能网关多少钱
2023/5/31 08:28 中国联通启动2023家庭智能网关集采:规模约为1190万台   C114讯 据来自中国联通的官方信息显示,其已于日前启动2023年中国联通家庭智能网关集中公开采购...
日期:05-31
高德打车助老模式帮老人叫车「高德打车升级暖心车站服务,组建志愿服务队助老年人出行」
7月13日消息,今日,中国老龄事业发展基金会、高德地图达成战略合作,推进“助老打车暖心车站”公益行动。据了解,双方将在全国范围内共同建设助老打车暖心车站,并组建志愿服务队,以...
日期:08-29
达尔优D1蓝牙耳机_轻舒时尚,无线灵动 ▎达尔优D1蓝牙耳机正式发布
  小巧机身,轻舒的佩戴感   简约设计,方显时尚触觉   灵动连接,乐享无线快感   北京时间2021年2月5日,达尔优(DAREU)发布D1蓝牙耳机。采用高品质杰理蓝牙5.1芯片,单双...
日期:07-16
诺基亚智能手机哪款好「诺基亚智能手机推荐」
近年来,越来越多的品牌加入了智能手机市场,如苹果、三星、华为等。但作为最早进入手机市场的企业之一,诺基亚的智能手机仍然备受欢迎。下面就让我们一起来了解一些值得推荐的诺...
日期:05-29
极氪X官宣4月12日上市:全能SUV 零百加速3秒级「极氪介绍」
快科技4月10日从极氪官微获悉,极氪X将于4月12日正式上市。极氪X是继极氪001、极氪009之后,极氪旗下的第三款车,售价有望在20万元。外观造型方面,产品设计由史蒂芬西拉夫(Stefan S...
日期:04-10
TCL:敢为上游不畏难
已经航行了42年,但TCL的故事,绝不是顺风顺水。从磁带起家到电话机称王,从做电视、手机等硬件单品到拓展全场景智能终端,从收购汤姆逊彩电、阿尔卡特手机经历跨国并购阵痛,到创立T...
日期:06-23
库克再访中国:吃日料、听京剧 不亦乐乎_库克和ceo采访
苹果公司CEO蒂姆·库克于3月24日开始了他的2023年中国之旅。据悉,此次行程中,库克受邀参加了中国发展高层论坛,并参观了苹果华贸购物中心零售店、北京三里屯苹果零售店等场所。...
日期:04-02
盛大游戏AllStar盛典时间地点正式公布_盛大游戏总部
  5月17日消息,2010年度网络游戏行业第一场大型娱乐盛典,2010盛大游戏年度Allstar新品发布盛典今日正式公布了时间与地点,5月26日,上海音乐厅。   始建于1930年,拥有80年历...
日期:07-29
库克回应iPhone14Pro供不应求:将继续持续一段时间
10月28日 消息:苹果公司于10月27日公布了其第四季度和2022年全年的财务业绩。苹果公司第四季度每股收益和销售额超出华尔街分析师的初步预期,但在iPhone销售和服务收入方面未...
日期:10-28
OPPO发布 Air Glass智能眼镜(OPPO眼镜)
  12 月 14 日消息,OPPO 未来科技大会 2021 今天下午正式开幕,除了自研芯片马里亚纳 MariSilicon X 之外,OPPO 还发布了新一代智能眼镜 ——OPPO Air Glass。OPPO 称,作为 OP...
日期:07-17
百度“互联网创业者俱乐部”周年诞或将呈现“共赢”新布局_百度系创业公司
  记者日前获悉,旨在扶植广大中小网站和互联网创业者成长的最大创业平台百度“互联网创业者俱乐部”即将迎来一周年生日庆典。互联网创业者俱乐部自2010年8月成立至今,已形...
日期:07-22
魅族新专利公布:把耳机做到手机中 还能当摄像头「魅族手机前置摄像头不能用怎么办」
2月2日消息,珠海市魅族科技有限公司申请的一种智能移动终端”专利公布。据专利信息,这种智能移动终端,包括终端主体,终端主体显示面、非显示面以及集成模块。设计师必备的5款绘...
日期:02-03
周杰伦官宣数智人“周同学”!中国移动、好莱坞顶级特效团队制作
5月8日消息,今日,周杰伦亮相厦门的中国移动咪咕元宇宙总部,达成元宇宙领域系列合作。现场上,周杰伦发布了中国移动与好莱坞顶级特效团队WETA为其打造的超写实数智人周同学”。同...
日期:05-08
opporeno2是不是曲面屏「OPPO Reno10定档:双曲面 骁龙8」
OPPO新机迎来官宣,Reno10系列将于5月24日14:30发布,包含三款机型Reno10、Reno10 Pro以及Reno10Pro ,处理器分别是骁龙778G、天玑8200、骁龙8 。M2芯片量产Reno10系列手机采用新...
日期:05-17
台式电脑排行榜2021前十名「台式电脑排行榜」
台式电脑近年来由于性能强、升级方便、配件齐全等优点,仍然受到不少用户的青睐。然而,众多品牌和型号的台式电脑让人眼花缭乱,不知该如何选择。接下来,将为大家分享一份"",帮助大...
日期:05-29
俄媒:中国智能手机在俄销量激增(俄罗斯智能手机市场)
参考消息网8月13日报道 据今日俄罗斯电视台网站报道,俄罗斯《生意人报》11日援引行业数据报道,中国品牌已经挤掉世界最大智能手机销售商苹果和三星,占据了俄罗斯智能手机市场的...
日期:08-15
拉伊卜小王子首次回应身世 称有计划来中国
12月12日 消息:卡塔尔“拉伊卜小王子”在世界杯上因发表对球队不满的表情而爆红,在内地社交平台入驻,吸粉数达千万,成为“千万级大V”。12月11日晚,小王子在某短视频平台开启网...
日期:12-12
618活动开启!华为Mate 50系列至高优惠800元_华为mate50价格预估
5月23日消息,目前618年中促销活动已经开启,华为官方也开启了预售活动,华为目前的顶级旗舰机华为mate 50系列也开启限时优惠,华为Mate 50及Mate 50E立减500元,Mate 50 Pro立减800...
日期:05-23