您的位置:首页 > 互联网

各家的“ChatGPT”什么时候能取代程序员?CSDN AI编程榜发布

发布时间:2023-03-14 15:48:33  来源:互联网     背景:

声明:本文来自于微信公众号CSDN(ID:CSDNnews),作者:深度999,授权转载发布。

“人人都是开发者”的时代终于要来临了!

ChatGPT 的出现,引领了科技公司追逐 AI 的浪潮。相比初代 GPT-3,最新基于GPT3.5的模型之所以受到更加广泛的关注,主要原因之一便是它在加入了代码作为训练数据后,彻底颠覆了传统模型较弱的思维链推理能力,大大地提升了模型的推理能力。因此,这也催生了多款针对开发者的辅助和革命性工具。

图片

GPT3.5加入了代码作为训练数据后,大大地提升了推理能力

为给广大开发者推荐更多好用的辅助(Ti Dai)工具,CSDN 重磅发起“CSDN AI 编程榜单”,定期针对业界主流的 AI Coding 产品进行评测。本期榜单中,我们共选择了六款 AI Coding 产品,分别是:ChatGPT、GPT3.5、CodeBBT、GitHub Copilot、CodeGeeX、aiXcoder。

话不多说,我们先看评测得到的关键性结论:

  • ChatGPT 以几乎接近满分的成绩,摘得榜首,成为开发者辅助编码的最佳神器;

  • 目前尚未有任何一款产品达到 C4(高度自动编程)级别,即,想要在没有任何的人工干预下,生成理想中的代码也还存在一定的困难,正因此,至少就当前阶段而言,“程序员即将被 AI 所取代”的传言也并不可信;

  • C++ 和 Java 在各模型的3分占比高于 Javascript、Python 及 Shell,这意味着各大模型对 C++ 和 Java 语言支持要优于其他几种语言。

注:本次评测为了快速获取评测结论,从生成任务数据集到评分/评级若有遗漏和不足之处,望各位大佬斧正。也欢迎本次没有覆盖到的产品联系我们(kefu@csdn.net),加入评测。

AI 编程究竟哪家强?我们一起来评测

首先,根据流行度、发布时间、智能化等维度,我们选取了如下六款产品作为评测对象:

GPT-3.5,是 OpenAI 在GPT-3基础上微调出来的版本,它采用了与 GPT-3不同的训练方式,所产生出来不同的模型,比起 GPT-3来的更强大。

GitHub Copilot(https://github.com/features/copilot,是GitHub 和 OpenAI 于2021年6月推出的人工智能工具,它可以根据命名或者正在编辑的代码上下文为开发者提供代码建议。

GPT-3.5-Turbo(ChatGPT)(https://openai.com/blog/chatgpt),是 OpenAI 于2022年11月推出的人工智能聊天机器人程序。该程序使用基于 GPT-3.5-Turbo 架构的大型语言模型并以强化学习训练。ChatGPT 目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。

CodeGeeX(https://github.com/THUDM/CodeGeeX/blob/main/README_zh.md),是智谱 AI 联合清华、华为发布的代码生成模型,它是一个具有130亿参数的多编程语言代码生成预训练模型。采用华为 MindSpore 框架实现,在鹏城实验室“鹏城云脑II”中的192个节点(共1536个国产昇腾910AI 处理器)上训练而成。

CodeBBT,是超对称技术公司近期发布的 BBT-2大模型系列中的代码模型。继2022年6月发布10亿参数的 BBT-1金融大模型后,超对称公司接续研发了120亿参数的通用语言大模型 BBT-2,并在 BBT-2的基础上训练中英文代码数据,推出面向中文开发者的代码模型 CodeBBT。

aiXcoder(https://www.aixcoder.com),是硅心科技研发的国内首款基于深度学习的智能化软件开发工具,利用 AI 技术实现代码⾃动⽣成、代码⾃动补全、代码智能搜索等功能,提升开发者开发效率与代码质量。

基于以上 AI 辅助代码工具,在生成任务的选取中,生成任务语言以中文自然语言环境为主。测试集包含了 C++、 Java、 Javascript 、Python 和 Shell5种主流的开发语言。另外,以开发者在 CSDN 平台上的 Text→Code(Code→Text)、Troubleshooting、命令行等高频需求为生成任务。评测同一个 Query 在不同模型搜索返回结果的效果,并选择50个 CSDN 搜索高频 Query。

CSDN 发布C1-C5级自动编程评测方法与标准

为了更直观地看出不同产品之间的区别,我们模仿自动驾驶的 L1-L5级别划分,将自动编程分成了 C1-C5级别。

图片

倘若能够达到 C5级别,那么也可以畅想一下未来:产品经理能够直接用自然语言写成的需求文档作为输入,自动生成代码、自动化测试、自动化部署上线等。

当然,自动驾驶也分路况,自动化编程也会分“路况”,在此,我们也将每一档划分了相应的分值:

图片

*说明:评分涉及的编程语言指主流编程语言 Java、C/C++、Javascript、Python和Shell

单条 Query→内容打分规则

  • 3分:有正确输出,能直接解决问题

  • 2分:有错误输出,不能直接解决问题,但输出可参考

  • 1分:有输出但不能解决问题,输出不可参考

  • 0分:无输出

    评测三步走

本次的测试集主要是 CSDN 上用户主要在 AI Coding 上的高频需求同时兼顾对主流编程语言的覆盖,可能不能完全体现各个产品/模型的性能,并且上述产品是针对不同的场景来设计的,所以在不同的“路况”下,表现会有差别,例如 Copilot 和 CodeGeex 就是专门为 IDE 环境设计的辅助开发工具,所以在代码生成方向很强,但是 Troubleshooting 上就会差一些,可能不是没有这个能力,而是针对性设计的结果。

因为所有产品均未达到 C4,故所选的测试集均为 C4级别以下的数据。同时我们以真实的用户需求为评估方向,因此我们以C3代码生成和代码调试展开评估以及阐述。

具体评测步骤按下面评分对各项打分求和即是模型最终得分,再根据模型档位对应的分数范围将模型划分到对应档位。

1. 函数级别的代码生成、代码分析的评分,对应分数作为在 C3等级的评分

  • 单条评分加和,具体单条评分如下,其评分规范参见上文第二部分:

在遵循此步骤的基础上,我们以生成一个「Python 爱心代码」为例,不妨先看看每种模型的表现情况:

模型:GPT-3.5-Turbo(ChatGPT)

得分:3分

输出内容如下:

图片

模型:GPT3.5

得分:2分

输出内容如下:

图片

模型:CodeBBT(超对称)

得分:3分

输出内容如下:

图片

模型:Copilot(vscode插件)

得分:3分

输出内容如下:

图片

模型:CodeGeeX(智谱)

得分:1分

输出内容如下:

图片

模型:aiXcoder

得分:1分

输出内容如下:

图片

运营商算垄断吗

那么,生成代码和捉 Bug 能力是否相一致?

为了证明不同模型之间的能力,我们又从 Troubleshooting 类入手,如用 java.lang.illegalstateexception: failed to load applicationcontext 异常的代码问题,进行评测:

模型:GPT-3.5-Turbo(ChatGPT)

得分:3分

输出内容:

图片

模型:GPT3.5

黄章回归魅族

得分:2分

输出内容如下:

图片

模型:CodeBBT(超对称)

得分:1分

输出内容如下:

图片

模型:Copilot(vscode插件)

得分:1分

输出内容如下:

图片

模型:CodeGeeX(智谱)

得分:1分

输出内容如下:

图片

模型:aiXcoder

得分:0分

无输出

图片

评测结果出炉:ChatGPT 一马当先,国产化 AI 工具还有较大的差距!

几经测试之后,最终得出各产品档位得分(150分制)情况如下:

图片

乐视超级电视max70音响

*说明:GitHub Copilot(vscode插件)的 VSCode 版本为:1.75.1;GitHub Copilot:v1.76.9071

  • 各产品分项得分(150分制)

本次评测结果中,ChatGPT 名列前茅,aiXcoder 排名最末位,其他几个产品水平相差无几。

图片

图片

  • 各产品的分数分布

图片

苹果13降价趋势

  • 不同测试集的分数分布

图片

  • 不同编程语言类型的分数分布

图片

主要结论:

  • 各产品得分最高为 GPT-3.5-Turbo(ChatGPT),得分最低为 aiXcoder,因此在提供辅助代码的智能化方面,ChatGPT 的表现最佳;

  • 0分占比最多为 aiXcoder,3分占比最多为 GPT-3.5-Turbo(ChatGPT);

  • 代码生成类型的 Query 得分高于 troubleshooting 类型的 Query;

  • C++ 和 Java 在各模型的3分占比高于 Javascript、Python 及 Shell;

  • CodeBBT(超对称)对比 GPT-3.5-Turbo(ChatGPT)的 GSB(GOOD、SAME、BAD)条数为:0:10:40,这意味着国产的 AI 编程工具和领先的 ChatGPT 之间还存在一定的差距,有不少的上升空间。

写在最后

本次评测中,ChatGPT 出类拔萃,几乎接近满分,大家追赶ChatGPT的步伐任重而道远。有些遗憾的是,所有的产品都均未达到 C4级别,离 C5也还有很长的路要走。

然而,AI 一旦踏上了这个方向,必然势不可挡,人人都是开发者的时代也许就在不远的将来。作为开发者社区,CSDN 也将持续致力于 AI 编码工具的研究与关注,敬请期待下期评测内容。


返回网站首页

本文评论
“东南亚小腾讯”Sea第二季度营收29亿美元 同比增长29%_东南亚腾讯 SEA LIMITED创始人
iPhone订单退款 查看最新行情   讯 北京时间8月16日晚间消息,据报道,新加坡互联网巨头Sea(NYSE: SE)今日发布了截至6月30日的2022年第二季度财报。财报显示...
日期:08-17
罗永浩重回手机「罗永浩正在失去回头客?」
声明:本文来自微信公众号“锌刻度”(ID:znkedu),作者:星晚,授权转载发布。近日,北京市第三中级人民法院审理了一起与直播带货相关的案件。在这起案件中,供应商公司为请某网红为其直...
日期:02-11
10岁以下网民占35%_我国10岁以下小小网民有420万 比例达1.1%
  随着互联网技能的增长、互联网接入终端的普及,越来越多的未成年人成为网民,而且年龄越来越小。刚刚在京发布的国内第一本青少年蓝皮书《中国未成年人互联网运用报告(2009...
日期:07-30
悠视网时隔4年筹备第三轮融资 有意在国内上市(悠视网络电视现在还有吗)
  9月6日下午消息,网络电视悠视网UUSee今日发布新版客户端,推出开放式播放平台。悠视网CEO李竹与媒体沟通时表示,悠视网正在筹备第三轮融资,未来有意在国内上市。   一直相...
日期:07-22
天玑9000相当于骁龙的什么处理器「9月安卓旗舰机性能榜出炉:天玑9000+以一胜九 打败所有骁龙处理器」
这是属于联发科的高光时刻。10月1日,安兔兔发布9月安卓手机性能榜,天玑9000+以一胜九,打败了所有骁龙处理器。苹果11无线充电磁吸榜单显示,ROG6联合联发科调校出来的天玑9000+一...
日期:10-06
一张图看懂年货节淘宝联盟超级红包玩法攻略 分成比例最高70%「淘宝双十一队伍红包分配」
12月21日 消息:今日,淘宝联盟发布了年货节淘宝联盟超级红包玩法攻略。据悉,年货节超级红包的结算机制升级,分成比例最高70%。红包优先,遇单品结高佣,无普通cpS订单不补贴红包订单...
日期:12-22
网游的发展_网游业增长10年来首次放缓  网游巨头寻对策
面临行业十年来的首次增长放缓,网游巨头们正四处寻找应对的策略。日前,据艾瑞报告显示,今年第二季度网络游戏市场规模为73.4亿元,虽然同比增长8.8%,但环比下降了1.8%,这是一直高...
日期:07-22
女子遭遇电信诈骗:民警输错3次密码帮忙保住10多万_电信诈骗案件主办民警
近日,一女子落入电信诈骗的陷阱,眼看着10多万元要被骗子拿走,民警机智地想出了一个好办法,化险为夷。据荔枝新闻报道,扬州市民高先生报警称,他的妻子接到一个电话后失联,怀疑可能遭...
日期:10-21
淘宝全球购双11将聚焦短视频和直播内容化「淘宝双十一节目」
9月29日消息,淘宝直播发文称,淘宝全球购近日举办商家主播买手大会,面向消费者、商家买手、主播/机构等群体宣讲淘宝全球购的双11玩法和重点利好政策,同步解读了未来半年的重点策...
日期:10-01
腾讯位置服务开放小程序解决方案 助力开发者打造个性地图
日前,腾讯位置服务面向开发者全面开放小程序解决方案,为广大开发者提供更便捷、更智能的位置服务......
日期:09-26
15万级纯电SUV卷王!广汽埃安Aion Y Plus上市:13.98万起_广汽新能源suv埃安lx
9月27日,AION Y Plus正式上市,共推出510km、610km两个续航版本共计6款车型,补贴后的官方指导价为13.98万元-17.98万元,10月即开始交付。作为15万级纯电SUV的首个10W+,AION Y产品...
日期:09-28
中兴通讯发布财报:2022年实现净利80.8亿 营收1229亿
【网易科技3月10日报道】中兴通讯发布2022年度业绩报告。报告期内,实现营业收入1,229.5亿元,同比增长7.4%;归母净利润80.8亿元,同比增长18.6%;扣非归母净利润61.7亿元,同比增长86....
日期:03-11
擎朗智能受邀出席中国智慧餐饮高峰论坛 分享新餐饮场景下的AI落地
  2019年3月7日至9日,由国字头“中国烹饪协会”、CHINA FOOD组委会等领衔主办的“CHINA FOOD 2019第六届中国餐饮盛典暨中国餐饮TOP50强颁奖礼”在上海新国际博览中心隆重...
日期:09-21
百度疫情指数上线 覆盖全国31个省「全国疫情新进展,全国疫情指数」
12月16日 消息:百度APP于12月13日正式上线“疫情指数”,覆盖全国31个省市自治区360多个城市,提供“百度健康问诊指数”、“百度疫情搜索指数”等服务,并发布防疫指南、药品清单...
日期:12-16
傅首尔回应“与趣店预制菜合作”:对品牌前身缺乏了解,没有后续合作
7月26日,傅首尔就“与趣店预制菜合作”发布回应称,没有深度合作,也没有后续合作。傅首尔表示,“五个小时的助播工作,其中三小时是和产品研发部门的负责人,讲解产品分量和口味。我...
日期:07-31
实时监控主动防御 金山卫士2.6.3正式版评测_金山安全助手能监控哪些
  快速、小巧、安全的金山卫士具有超强的木马查杀、系统修复和安全防护能力,可以方便地查杀木马,修复系统,拦截钓鱼网站和木马病毒,捍卫系统安全,打造绿色上网环境。最近,金山...
日期:07-27
2021年筋膜枪选购指南_2021年筋膜枪品牌排行榜-筋膜枪指南
  2020-2021年最新的筋膜枪品牌榜发布了,《2021筋膜枪十大品牌排行榜》。此榜单老王共收集了筋膜枪行业10品牌信息及3986个网友的投票做为参考,综合分析了筋膜枪行业品牌...
日期:07-16
比亚迪生产小米手机吗_小米汽车敲定比亚迪电池?比亚迪:不予置评
查看最新行情   记者/李雨宸   有媒体报道称,小米汽车已经敲定了两家主力电池供应商,分别为宁德时代和比亚迪旗下的弗迪电池,这两家电池公司也是国内新...
日期:08-20
图片和文字社交有何区别?扎克伯格极致拉踩:推特容易让人愤怒,Ins更“正能量”
手机屏最小的手机  讯 北京时间8月26日早间消息,Facebook母公司Meta首席执行官马克·扎克伯格发声说,在推特上很难不感到心烦意乱,而Instagram提供的体验更积极。他说:“我不...
日期:08-27
国家烟草专卖局:未取得烟草专卖许可证不得生产经营电子烟_未取得烟草专卖零售许可证
9月29日 消息:今日,国家烟草专卖局发布《关于加强电子烟监管有关事项的通知》称,2022年10月1日起,从事电子烟生产经营的电子烟市场主体应当取得烟草专卖许可证,严格按照《中华人...
日期:10-02