您的位置:首页 > 互联网

Code Llama 70B霸榜3连发,练习5个月击败GPT-4,小扎LeCun亲自官宣上新

发布时间:2024-01-31 15:25:55  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,编辑:alan 好困,授权转载发布。

【新智元导读】新的SOTA再次出现,Code Llama系列最强模型发布,70B代码模型一举击败GPT-4,开源代码登陆各大平台,大佬直接开玩。

今天,Meta正式发布了Code Llama70B,作为Code Llama系列中规模最大,性能最强的版本,一举击败了GPT-4!

目前,模型共有三个版本,均可免费用于研究和商业目的:

CodeLlama -70B:基础代码模型;

CodeLlama -70B - Python:专门针对Python的70B模型;

CodeLlama -70B - Instruct:专门用于理解自然语言指令的模型。

算上8月份发布的Code Llama7B、13B和34B,这个家也算是完整了。

论文地址:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

其实,Code Llama在发布时就已经展现了不俗的实力,在一众代码生成模型中处于领先位置。

不过GPT-4依然凭借着67.0的HumanEval(pass@1)得分数遥遥领先(Code Llama34B为53.7)。

尽管后来又有Code Llama的微调版本获得了更好的成绩,却并没有进入Meta的这个官方表格。

但是!在寒窗苦读了5个月之后,Code Llama终于一鸣惊人,以最强的70B模型登顶全部三项测试的榜首。

其中,CodeLlama-70B-Instruct在HumanEval上更是直接拿下了67.8的高分,一举跻身当下最强开源模型的行列。

可以说,除了GPT-4外,其他同类模型几乎都难以望其项背。

对此,LeCun转发并宣传了自家的新模型:新一代Code Llama依然开源,正如它的前辈们一样。

而终于发现自家AI是块宝的小扎,也加大了宣传力度:

我们正式开源了一个全新且更加强大的Code Llama,包含一个庞大的700亿参数的模型。

在当今的AI域,编写和编辑代码已经成为了最关键的应用之一。同样,能够编程也对AI模型在其他领域进行更加严密和逻辑性的信息处理显得尤为重要。

我对我们在这方面取得的进展感到非常自豪,并且非常期待在未来的Llama3及后续模型中加入这些先进的成果。

技术细节

Code Llama是一款能够通过文本提示生成代码的大语言模型。它不仅能提升现有开发者的工作效率,还能降低编程新手的学习门槛。

Meta希望将Code Llama打造成为一款既能提高生产力,又具有教育价值的工具,助力程序员创建更加稳定且文档齐全的软件。

Code Llama是基于Llama2开发的,专门用于编程任务的版本。

通过在专为编码设计的数据集上进行更深入的训练,Code Llama能够理解和生成代码,帮助完成编程任务(如编写函数、代码补全和调试),

并支持包括Python、C++、Java、PHP、Typescript (Javascript)、C#和Bash等在内的多种流行编程语言。

到目前为止,Code Llama系列集齐了四种规模,分别拥有7B、13B、34B和70B的参数,

前三个模型采用500B token的代码和相关数据进行训练,而新发布的70B模型使用了1TB token。

另外,7B和13B基础模型和指令模型还经过中间填充(FIM)功能的训练,具备直接在现有代码中插入新代码的能力(代码补全)。

Code Llama系列模型针对不同的需求和性能要求进行了优化:

7B模型能在单个GPU上运行,适合快速响应的场景;而34B和70B模型则提供了更高级的编码辅助功能,但运行速度较慢。

Code Llama能够处理长达100000token的上下文,这意味着模型可以理解和生成较长的程序代码。

这对于处理大型代码库中的调试任务特别有用,开发者可以提供大量代码上下文,以获得更准确的编码建议。

此外,Code Llama还推出了两个特别版本:Code Llama - Python 和 Code Llama - Instruct。

考虑到Python在AI社区的重要性,Code Llama - Python针对 Python代码进行了特别优化(使用100B token的Python代码数据进行微调),使其在生成Python代码时更加流畅和准确。

CodeLlama-70B-Python还可以处理一系列任务,例如网络抓取、数据分析、机器学习(ML)和Web开发。

而Code Llama - Instruct则通过接受自然语言指令和期望输出的方式进行训练,使其更擅长根据用户的需求生成代码或答案。

CodeLlama-70B-Instruct还可以用于处理排序、搜索、过滤和操作数据,以及实现算法(二进制搜索、斐波那契和阶乘等)。

官方建议在需要代码生成时优先考虑使用Code Llama - Instruct,以获得更安全、更有用的结果。

需要注意的是,主要用于编程问题的Code Llama和Code Llama - Python,并不适合处理一般的自然语言任务。

基准测试

下面看一下新的Code Llama在同类模型中的表现如何,这里采用业内广泛应用的编程基准测试:

HumanEval和Mostly Basic Python Programming (MBPP)。

HumanEval是一个包含164个编程问题的基准数据集,用于测试代码生成模型的功能正确性和逻辑性,而MBPP则测试模型依据具体描述编写代码的技巧。

我们可以看到前代的34B表现已经很好了,而参数量翻了一倍的Code Llama70B老大哥直接霸榜,并且相比于34B性能显著提升。

redmi note11是双卡吗

其中,CodeLlama-70B-Instruct在HumanEval上得分高达67.8,超过了CodeGen-16B-Mono(29.3)和StarCoder(40.1)等开放模型之前的最佳成绩,并与GPT-4(68.2)和Gemini Pro(69.4)等闭源模型相当。

当然,为了更负责任地开发AI模型,Meta已经采取了多项安全措施,并对生成恶意代码的风险进行了量化评估。

结果显示,相比于ChatGPT(GPT3.5Turbo),Code Llama给出的回答更为安全。

挑战GPT-4,coding模型卷起来了!

目前,通过各各类主流的平台和框架都可以访问和使用Code Llama70B,例如Hugging Face、PyTorch、TensorFlow和Jupyter Notebook。

此外,Meta AI还提供了针对不同目的和语言,使用和微调模型的文档和教程。

而随着模型的发布,各大AI平台也纷纷加入了对Code Llama70B的支持:

并且还可以直接开玩:

更有大佬把Code Llama70B跑到了苹果的处理器上,只不过有点热。

然后这位索性把Code Llama70B直接量化到了4bit。

参考资料:

https://ai.meta.com/blog/code-llama-large-language-model-coding/


返回网站首页

本文评论
华为或推最便宜折叠屏:nova系列 定价不到5000元「华为最便宜的折叠屏」
快科技6月12日消息,随着各大厂商的频频发力,目前折叠屏手机的门槛已经一降再降,5000-6000元就能体验到折叠屏手机了。16g+1tb手机当然,这个价格已经足以入手任何品牌的高端旗舰,...
日期:06-13
消息称Facebook在iPhone 5发布会上推iPad应用_ipad使用facebook
  9月27日消息,据国外媒体报道,在10月4日举行的苹果iPhone 5发布会上,Facebook将正式推出iPad专用应用。此外,预计Facebook还将会发布一款修订版的iPhone应用,并可能推出一个...
日期:07-23
首发HarmonyOS 4.0车机!赛力斯:AITO问界M9预计四季度上市
快科技8月2日消息,赛力斯集团日前发布了7月份产销战绩,7月赛力斯新能源汽车销量6934辆,本年累计销量达51734辆。同时官方公众号还发文强调,全景智慧旗舰SUV AITO问界M9将搭载全...
日期:08-02
38元 华为P50 Pro就能升级5G「华为p50pro可以升级5g吗」
在过去年6月,华为P50系列的5G手机壳上市了,起初适配华为P50 Pro,售价799元但现在只要38元就可以入手。移动云vr通过提供哪些全场景沉浸式vr体验龙芯是x86架构吗5月底的时候还要...
日期:06-04
俞敏洪带队 东方甄选将首次启动自有App直播_东方优播俞敏洪讲座
【】7月4日消息,据报道,东方甄选将于7月5日至11日开展甘肃专场直播活动,此次直播活动将由俞敏洪亲自带队并同时在东方甄选新版App上进行。据悉,这也是东方甄选创办一年多来,首次...
日期:09-22
斗象科技MSS实力入选IDC《中国公有云托管安全服务能力》报告
(原标题:斗象科技MSS实力入选IDC《中国公有云托管安全服务能力》报告) 近日,国际权威分析机构IDC发布《中国公有云托管安全服...
日期:08-21
广电总局 网剧备案「国家广播电视总局:对国产网络剧片发行实行许可制度」
12月27日 消息:国家广播电视总局印发通知称,国家对国产网络剧片发行实行许可制度。国产重点网络剧片上线播出时,应使用统一标识,准确标注节目发行许可证号,固定于节目片头的显著...
日期:12-27
诺基亚滑盖手机型号_诺基亚滑盖手机型号大全
诺基亚是一家历史悠久的手机品牌,深受人们的喜爱和青睐。在其创建的近三十年里,诺基亚推出了许多经典手机型号,其中滑盖手机就是其中之一。下面我们将介绍几款热门的诺基亚滑盖...
日期:05-31
马斯克:特斯拉累计生产电动车300万辆 上海厂突破100万辆(上海产电动汽车特斯拉)
  讯 北京时间8月15日早间消息,据报道,特斯拉CEO埃隆·马斯克(Elon Musk)在Twitter上发文称,特斯拉诞生至今,累计生产了300万辆电动车,此外在全部产量中,特斯拉在中国上海的工厂,...
日期:08-17
全球卖出1.2亿台!Switch冲入游戏硬件销量榜前三名_Switch 游戏销量
1989年,任天堂发布第一代便携式游戏机Game Boy,它的诞生奠定了任天堂在掌机领域的绝对统治地位,同时也成为了世界上最为畅销的几款游戏机之一。今天,根据数据统计机构站vgchartz...
日期:02-06
宁德时代骐骥换电宁厦线正式通车,重卡单次换电最高可达300KM续航
8月24日消息,全国首条高速公路重卡换电绿色物流专线“宁德厦门干线”(以下简称“宁厦线”)正式通车。宁厦线由福建省高速集团与宁德时代旗下子公司时代骐骥共同建设,为往返宁德...
日期:08-24
大模型发展仍需系统布局、有序引导「模型的发展趋势包括」
通信世界网消息(CWW)大模型作为通用赋能工具,引发智能时代革命性变革。拥有海量参数的大模型在大数据、大算力加持下,能够通过细微的调整优化应用至不同行业中,大幅提升场景适应...
日期:07-27
w579三星手机_三星w579+
W579三星手机是一款2010年推出的手机,具有时尚外观、音乐娱乐和照相功能。该手机采用2.2英寸大屏幕、1600像素多彩显示屏,保证了用户在使用过程中可视性与体验。同时,该手机还...
日期:05-31
19.99万元期待落空 打价格战的特斯拉为何突然涨价:利润下滑_特斯拉为什么涨价又降价
快科技5月3日消息,前不久网友还在期待特斯拉在国内开启新一轮降价,Model 3入门价格甚至能降到19.99万元,没想到最终等来的是特斯拉的反向降价Modle 3及Model Y等全面上涨2000元...
日期:05-03
尽管苹果电脑产业链_数据显示苹果开始动摇英特尔及x86在PC市场几十年的主导地位
  苹果公司用了不到一年的时间,似乎就开始动摇了x86和英特尔在传统PC芯片市场上维持了几十年的主导地位。Mercury Research的首席分析师Dean McCarron说,苹果推出的Apple S...
日期:11-20
小米pro142021「小米14 Pro配置曝光:90W快充、超窄直屏 iPhone对抗」
今天,小米新机也获得了工信部认证,预计是小米14标准版。该机支持90W快充,相比前代的67W有了很大提升。小米的计划是将90W作为以后小米系列手机的标配起步规格。 值得注意的...
日期:09-22
联想y470配置「联想y470配置升级」
联想y470是一款笔记本电脑,配置不错,适用于办公和娱乐。下面我们来看看它的具体配置。处理器方面,联想y470使用的是英特尔酷睿i5/i7四核处理器。这款处理器采用了22nm工艺,支持...
日期:05-31
六车AEB夜间实测:带激光雷达的理想L9倒数第一
作为主动安全中最重要的一环,AEB已经成为了不少新车的标配,不过不同主机厂使用的AEB方案不同,表现也不同。此外,随着激光雷达的逐步装车,加上部分厂家的引导性宣传,逐渐成为了新的...
日期:10-16
微软 8 月开始直接销售 Win10 IoT Enterprise LTSC 批量授权_微软批量授权服务中心
IT之家 7 月 14 日消息,企业客户如果计划购买 Win10 IoT Enterprise LTSC 版本,此前只能通过 OEM 渠道购买,而且只能购买已预装系统的设备成品。微软宣布自今年 8 月 1 日开始,...
日期:07-14
抗疫助农有“她” 十位女县长在腾讯微视组团直播
  又一年三八妇女节到来,今年却与以往不同,受疫情影响,农产品线下流通渠道仍在缓慢恢复中,不少农产品的销售仍有阻力。为了帮助农户们度过难关,腾讯微视联合十位女县长在这个...
日期:04-12