您的位置:首页 > 互联网

开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危

发布时间:2024-06-08 18:09:02  来源:互联网     背景:

声明:本文来自于微信公众号量子位(ID:QbitAI),作者:鱼羊,授权转载发布。

开源大模型全球格局,一夜再变。

这不,全新开源大模型亮相,性能全面超越开源标杆Llama3。王座易主了。不是“媲美”、不是“追上”,是全面超越。发布两小时,直接冲上HggingFace开源大模型榜单第一。

这就是最新一代开源大模型Qwen2,来自通义千问,来自阿里巴巴。

在十几项国际权威测评中,Qwen2-72B得分均胜过Llama3-70B,尤其在HumanEval、MATH等测试代码和数学能力的基准中表现突出。

不仅如此,作为国产大模型,Qwen2-72B也“毕其功于一役”,超过了国内一众闭源大模型:

Qwen2-72B相比于自家前代模型Qwen1.5-110B实现了整体性能的代际提升,而在上海AI Lab推出的OpenCompass大模型测评榜单上,Qwen1.5-110B已经超过了文心4、Moonshot-v1-8K等一众国内闭源模型。随着Qwen2-72B的问世,这一领先优势还在扩大。

有网友便感慨说:这还只是刚开始。开源模型很可能在未来几个月,就能击败GPT-4o为代表的闭源模型。

Qwen2的发布,可以说是一石激起千层浪。

上线仅1天,下载量已经超过3万次。

网友们还发现,除了72B和指令调优版本,这次同步开源的Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B,开源许可都换成了Apache2.0——

就是说可以更加自由地商用。这是Llama3系列都没做到的。

在AI大模型领域,时间和速度都不同了。

因为距离阿里推出Qwen1.5-110B模型刷新SOTA,全球开源大模型形成双雄格局,才刚过去1个月时间。

而现在,Qwen2独领风骚,全球开源第一,国产大模型第一——连不开源的大模型都超越了。

Qwen2挑战高考数学真题

还是先来整体梳理一下Qwen2的基本情况。

根据官方技术博客介绍,Qwen2的特点和相比Qwen1.5的主要升级包括:

  • 发布5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。其中Qwen2-57B-A14B是一个MoE模型。

  • 在中文英语的基础上,对27种语言进行了增强。有阿拉伯语开发者表示,Qwen已经成为4亿阿拉伯语用户喜欢的大模型,稳居阿拉伯语开源模型榜单第一。

  • 在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中,Qwen2-72B斩获十几项世界第一,超过Llama3。

  • 代码和数学能力显著提升。

  • 增大了上下文长度支持,最长实现128K tokens上下文长度支持(Qwen2-7B-Instruct和Qwen2-72B-Instruct)。

纸面数据上,Qwen2在开源大模型中已经达成全球最强,那么实际表现又会如何?

我们用新鲜出炉的高考数学真题上手实测了一波。

先来个简单题:

已知集合A={x|-5<x^3<5},b={-3,-1,0,2,3},则a∩b=()< p="">

左边是Qwen2-72B-Instruct,右边是Llama-3-70B-Instruct。除了Llama3原版的老问题不咋支持中文外,两边的答案都是正确的。

那么就稍微上点难度:

当x∈[0,2π]时,曲线y=sinx与y=2sin(3x-π/6)的交点个数为?

Qwen2-72B-Instruct依然没有被难住,一通计算后给出正确答案:交点个数为6个。

而Llama-3-70B-Instruct则计算错误,扣5分。

Qwen2在数学能力方面,已经到了高考考场接受真题检验的水平。

通义千问此番升级,官方和评测数据还突出了代码能力的提升,我们也有LeetCode中等难度真题浅测了一下:

给你一个按照非递减顺序排列的整数数组nums,和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值 target,返回 [-1, -1]。你必须设计并实现时间复杂度为 O(log n) 的算法解决此问题。

荣耀x7参数配置详解

Qwen2-72B-Instruct给出的python实现如下:

defsearchRange(nums,target):defbinary_search_left(nums,target):

left,right=0,len(nums)whileleft<right:

mid=(left+right)//2ifnums[mid]<target:

left=mid+1else:

right=midreturnleft

defbinary_search_right(nums,target):

left,right=0,len(nums)whileleft<right:

mid=(left+right)//2ifnums[mid]<=target:

left=mid+1else:

right=midreturnleft

left,right=binary_search_left(nums,target),binary_search_right(nums,target)return[left,right-1]ifleft<=right-1andnums[left]==targetandnums[right-1]==targetelse[-1,-1]

一开始没有定义Solution类导致报错,不过直接把报错信息反馈给Qwen2,它自己就能完成debug:

顺利通过测试。

全尺寸模型标配GQA

这波实测,你给通义千问打几分?

值得关注的是,这次阿里官方的技术博客中,还透露出了不少Qwen变强的技术细节。

首先,是GQA(Grouped Query Attention)的全面加持。

GQA,即分组查询注意力机制,主要思想将输入序列划分成若干个组,在组内和组间分别应用注意力机制,以更好地捕捉序列内的局部和全局依赖关系。

GQA能够有效降低计算复杂度,同时很容易实现并行化从而提高计算效率。

在Qwen1.5系列中,只有32B和110B模型使用了GQA。而Qwen2则全系列用上了这一注意力机制。也就是说,无论是高端玩家还是爱好者入门,这回都能在Qwen2各个尺寸模型中体验到GQA带来的推理加速和显存占用降低的优势。

另外,针对小模型(0.5B和1.5B),由于embedding参数量较大,研发团队使用了tie embedding的方法让输入和输出层共享参数,以增加非embedding参数的占比。

其次,在上下文长度方面,Qwen2系列中所有Instruct模型,均在32K上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。

其中,Qwen2-7B-Instruct和Qwen2-72B-Instruct支持128K上下文。72B版本的最长上下文长度可以达到131072个token。

Qwen2-57B-A14B-Instruct能处理64K上下文,其余两个较小的模型(0.5B和1.5B)则支持32K的上下文长度。

大海捞针的实验结果如下。可以看到,Qwen2-72B-Instruct在处理128K上下文长度内的信息抽取任务时,表现称得上完美。

除此之外,在数据方面,Qwen2继续探索Scaling Law的路线。

比如数学能力的提升,就是研究团队给模型喂了大规模高质量数学数据的结果。

在多语言能力方面,研究团队也针对性地在训练数据中增加了27种语言相关的高质量数据。

博客还透露,接下来,通义千问研究团队还将继续探索模型及数据的Scaling Law,还会把Qwen2扩展为多模态模型。

重新认识中国开源大模型

更强的性能、更开放的态度,Qwen2刚一发布,堪称好评如潮。

而在此前,生态方面,Qwen系列下载量已突破1600万次。海内外开源社区也已经出现了超过1500款基于Qwen二次开发的模型和应用。

已经有开发者感受到了:在开源路线上,现在中国大模型正在成为引领者。

Qwen2的最新成绩单,至少印证了两个事实。

其一,中国开源大模型,从性能到生态,都已具备跟美国最强开源大模型Llama3全面对垒的硬实力。

其二,如图灵奖得主Yann LeCun所预言,开源大模型已经走在了超越闭源模型的道路上,拐点已现。

事实上,这也是包括阿里在内,开源大模型玩家的明牌——

大模型的持续优化和进步,一方面依赖于强大的AI研发能力、领先的基础设施能力,也就是人工智能和云的强强联合。

以阿里为例,作为中国云厂商份额第一,依托于强大的云计算能力,能为AI训练、AI应用提供稳定高效的AI基础服务体系,同时在人工智能方面有长期的积累。

另一方面也需要来自外界的不断反馈和技术推动。

开源社区的技术反哺,从Qwen2上线第一天,GitHub上的Issues数量就可见一斑。

在技术领域,开源就是我为人人、人人为我,是全球科技互联网繁荣发展至今最核心的精神要素。

不论任何一个时代,不管哪种新兴技术浪潮,没有程序员、工程师不以开源感到骄傲,甚至快乐。

阿里高级算法专家、开源负责人林俊旸,曾对外分享过通义千问进展飞快的“秘籍”:

快乐。

因为面向全球开发者服务,面向其他开发者交流,给别人带去实实在在的帮助,这样通义千问大模型的打造者们快乐又兴奋,关注着每一个开发者的反馈,激动于全新意想不到的落地应用。

这也是科技互联网世界曾经快速发展的核心原因,黄金时代,开源才是约定俗成的,不开源反而要遭受质疑。

然而时移世易,在大模型时代,由于研发成本、商业模式和竞争多方面的原因,闭源的光芒一度掩盖了开源,Close成了宠儿。

所以Meta的Llama也好,阿里通义千问的Qwen也好,复兴传统,重新证明科技互联网领域不变的精神和内核。

这种精神和内核,在通义千问这里,也拥有不言自明的可持续飞轮。

奈雪的茶估值超60亿元!喜茶、一点点们服不服?

阿里巴巴董事长蔡崇信已经对外分享了思考,在全球云计算和AI的第一梯队中,有领先的云业务又有自研大模型能力的,仅谷歌和阿里两家。其他有云服务的微软、亚马逊,都是合作接入大模型;其他自研大模型的OpenAI、Meta,没有领先的云服务。

全球唯二,中国唯一。

而在开源生态的推动中,技术迭代会更快,云计算的服务延伸会越广,技术模型和商业模式,飞轮闭环,循环迭代,在固有基础设施的基础上垒起新的基础设施,形成稳固持续的竞争力。

但开源大模型,最大的价值和意义依然回归开发者,只有足够强大的开源大模型,AI for All、AI无处不在才不会成为纸上空谈。

所以通义千问Qwen2,此时此刻,登顶的是全球开源性能最高峰,引领的是开源对闭源的超越阶段,象征着中国大模型在新AI时代中的竞争力。

但更值得期待的价值是通过开源大模型,让天下没有难开发的AI应用、让天下没有难落地的AI方案。完整兑现AI价值,让新一轮AI复兴,持续繁荣,真正改变经济和社会。

参考链接:

https://qwenlm.github.io/zh/blog/qwen2/


返回网站首页

本文评论
没钱换手机?4000元以上高端手机卖爆了:国产冲高端势在必行「4000以上的手机买哪个好?」
都说大家没钱换手机了,但高端手机却卖爆了!Counterpoint Research今日发的数据报告显示,尽管全球智能手机市场连续八季度下滑,但高端市场却逆势增长,且韧性十足,高端手机赢得有史...
日期:07-21
eBay已完成对NFT交易平台KnowsOrigin的收购(ebay合作物流)
早前有消息称,在线拍卖平台 eBay 正试图收购 KnownOrigin,以打入近年来兴起的 NFT 市场。而在最新新闻稿中,该公司宣称这笔交易已于本周二(6 月 21 日)完成。KnownOrigin 联合创...
日期:08-01
核心业务营收大跌33%,英伟达连续两季业绩未达预期_英伟达季度财报
昨日,英伟达公布了今年第二季度的财报。财报显示,英伟达第二季度收入为67.0亿美元,同比增长3%,环比下降19%,这与两周前英伟达发布的业绩预览基本相当。华硕破晓系列这标志着英伟...
日期:09-12
ios oculus app「Oculus 创始人称苹果首款头显「非常好」 功能远远超过竞争对手」
5月15日消息:WSJ 上周五概述了苹果长期传言中的 AR / VR 头戴式设备项目,证实了之前由彭博社的 Mark Gurman 和 The Information 的 Wayne Ma 报道的几个细节。报道显示,苹果...
日期:05-15
手机QQ占GSM网络40%容量 引发中移动高层震怒
  知情人士透露,中国移动已对数据业务大量占用GSM网络容量高度重视,而首当其冲的就是手机QQ,目前已传出中国移动将对手机QQ进行收费模式改革,以遏制这种廉价收费。   此事...
日期:07-25
西方臻选主播疑似模仿董宇辉 外形风格都有点像
最近,东方甄选的“小作文”风波成为了网络上的热点,特别是在 12 月 16 日东方甄选宣布免去了孙东旭的东方甄选CEO职务之后,俞敏洪和董宇辉在直播间出现并回应了最近的风波,更是...
日期:12-18
apple watchos7.6_苹果 watchOS 7.6.2 正式发布
  9 月 14 日消息 今日凌晨,除 iOS 14.8 与 iPadOS 14.8 外,苹果还发布了 watchOS 7.6.2 正式版更新(内部版本号 18U80)。   苹果表示,本次更新提供了重要的安全性更新,建...
日期:07-17
北京市委书记蔡奇走访利亚德集团 定制“服务包”助力企业发展
  昨日上午,北京市委书记蔡奇莅临利亚德集团调研走访,在利亚德集团董事长兼总裁李军的陪同下,参观利亚德集团展示中心并举行座谈会。北京市委常委崔述强,北京市副市长殷勇一...
日期:11-11
七彩虹进军元宇宙!推出免费NFT、神秘实体权益
元宇宙、区块链的概念虽然没有之前那么火爆,但依然有众多巨头在全力投入,应用也逐渐拓展开来。现在,七彩虹也正式入局元宇宙,并推出了首款免费NFT产品,还搭载了实体权益。七彩虹N...
日期:03-10
iPhone 15 Pro相机将迎来质变:5倍潜望长焦赶上安卓阵营
去年的iPhone终于将沿用6年的1200万像素相机升级到了4800万像素,虽然凭借着出色的影像调教以及高素质的CMOS,追赶上安卓阵营,然在解析力方面在安卓手机面前仍然不值一提。三星n...
日期:01-25
印度政府这手,三星、苹果和中国厂家都郁闷了……「三星手机印度制造」
作者:耿直哥马斯克博客据多家印度媒体报道,有来自印度政府内部的消息称,为了推广印度本土的导航系统“NavIC”,减少对于美国的GPS导航系统的依赖,印度官方正准备要求所有在印度售...
日期:09-30
日本品牌销量下滑跌出前五 份额仅3% 2023年索尼手机日本销量大降40%
来源:中关村在线据可靠消息来源,索尼Xperia手机在日本市场的销售情况令人担忧。自2023年以来,该品牌在日本国内的销量同比下降了40%。具体而言,在过去一年中,索尼Xperia手机的总...
日期:05-10
华为总裁余承东简介「最新任命:余承东升任华为 BU 董事长,靳玉志接任 CEO」
通信世界网消息(CWW)今日,据业内媒体报道,华为内部已对汽车业务岗位调整正式发文。调整过后,余承东将升任汽车BU董事长,整体是要帮助华为在智能汽车领域获得商业成功。“未来将持...
日期:09-21
女子到男朋友宠物医院拍肺部片子 看到“24岁雌性”绷不住了
近日,一位豆瓣网友分享了一段让网友笑喷的经历,因为医院拍片子排队的人太多,懒得排队的她就跑到宠物医院给肺部拍了个片子。据该女子表示,男朋友是宠物医院兽医,在建档时,给自己昵...
日期:01-11
新品发布:胜途VICSTUHL D2麒麟人体工学椅,打造人体工学核心科技!_胜途8x32ed评测
在人体工学座椅领域的深耕者胜途VICSTUHL,自豪地宣布推出全新的D2麒麟人体工学椅,这款椅子集成了先进的科技和设计理念,旨在为用户提供全新舒适体验。胜途VICSTUHL D2麒麟人体...
日期:05-10
价格10天暴降24%!销量扑街的RTX 4080第一次破发了
从销量上看,RTX 4080有点失败,有统计显示发售以来的销量只有RTX 4090的大约1/3.4,而且一直在下滑,溢价幅度也远不如RTX 4090。ticwatch2智能手表怎么样这种局面只能怪定价太高,比...
日期:11-29
2022天猫双十一养猫活动入口在哪  双11养猫活动玩法及红包攻略「2020年淘宝双十一养猫活动」
今年双十一,天猫不玩盖楼了,改玩养猫游戏。通过玩这个游戏,用户可以领到不少红包优惠券福利。愤怒的小鸟上市时间双11养猫活动入口:1、打开手机淘宝app,在首页即可看到“双11喵...
日期:11-02
女生吃菌中毒 看见猫咪结婚!医生强调:不认识一定不能吃「吃菌中毒会死人吗」
快科技8月11日消息,吃陌生菌中毒是一个几乎人人都知道小知识,虽然官方和医生、各种专家不断提醒,但每年夏季依然有不少人中招。据报道,近日云南昆明已女子就因吃野生菌中毒,躺在...
日期:08-11
华为手表新款watch3微信语音「华为Watch GT 3系列微信手表版上线:支持语音、文字回复」
9月29日消息,今日,@华为终端 官方宣布,华为Watch GT 3系列智能手表正式上线微信手表版。用户可通过蓝牙连接,不必拿出手机,抬手就能查看微信上的语音和图文信息、语音和视频通话...
日期:09-30
一加法务部:恶意抹黑新品涉案人员被采取刑事强制措施_恶意抹黑店铺
1月5日 消息:一加法务部近日发布消息,针对一加新品发布后频繁遭到恶意抹黑的行为,公安机关已立案调查。经过调查,涉案人员顾某某等人已被采取刑事强制措施。顾某某等人已主动承...
日期:01-05