您的位置:首页 > 互联网

全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral

发布时间:2024-04-25 21:22:52  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】最大开源模型,再次刷爆纪录!Snowflake的Arctic,以128位专家和4800亿参数,成为迄今最大的开源模型。它的特点,是又大又稀疏,因此计算资源只用了不到Llama38B的一半,就达到了相同的性能指标。

就在刚刚,拥有128位专家和4800亿参数的Arctic,成功登上了迄今最大开源MoE模型的宝座。

它基于全新的Dense-MoE架构设计,由一个10B的稠密Tranformer模型和128×3.66B的MoE MLP组成,并在3.5万亿个token上进行了训练。

不仅如此,作为一个比开源更开源的模型,团队甚至把训练数据的处理方法也全给公开了。

Arctic的的两个特点,一个是大,另一个就是非常稀疏。

好处就在于,这种架构让你可以用比别人少好几倍的训练开销,就能得到性能差不多的模型。

也就是说,与其他使用类似计算预算训练的开源模型相比,Arctic的性能更加优异。

比起Llama38B和Llama270B,Arctic所用的训练计算资源不到它们的一半,评估指标却取得了相当的分数!

图1编码(HumanEval+和MBPP+)、SQL生成(Spider) 和指令遵循(IFEval)的企业智能平均值与训练成本的比较

具体信息如下——

480B参数,生成期间17B处于活跃状态;

128位专家,有2位在生成期间活跃;

Instruct & Base版本发布;

专注于企业任务(代码、SQL、推理、跟踪);

在Apache2.0下发布;

FP16精度下约为900GB内存,INT4精度下约为240GB内存

使用DeepSpeed-MoE训练。

主打的就是一个性价比

评测主要看两项指标,一个是企业智能指标,一个是学术基准。

企业智能指标,是对企业客户至关重要的技能,包括包括编码(HumanEval+和MBPP+)、SQL生成(Spider)和指令遵循(IFEval)。

同时,团队也采用了业界常用的评估LLM的学术基准,包括世界知识、常识推理和数学能力。

可以看到,Arctic在多项企业智能指标中,都超越了Mixtral8×7B等开源对手。

在计算类别中,它实现了顶级性能,甚至和使用更高计算预算训练的模型,都有的一拼。

在学术基准上,它的表现也不差。

在测评中,团队发现了一件有意思的事。

MMLU等世界知识指标,是人们常用的学术基准测试。而随着高质量网络和STEM数据的增加,MMLU的得分会随着训练FLOPS的增加而提高。

但是,Arctic的目标之一,是在保持较小训练预算的同时优化训练效率,因此,跟其他模型相比,Arctic在MMLU上的得分较低,也实属情理之中。

由此,如果训练计算预算高于Arctic的训练,MMLU性能就将超越Arctic。

当然,MMLU世界知识的性能,并不一定和团队所关注的企业智能直接相关。

表3Arctic与DBRX、Llama38B、Llama370B、Mixtral8x7B、Mixtral8x22B的对比

企业级AI的训练成本,被打下来了!

在以往,用LLM构建顶级企业AI的成本,往往高得离谱,而且需要大量资源,令人望而却步。

通常,花费的成本高达数千万甚至数亿美元,这一成本是惊人的。

如何解决有效训练和推理的限制?Snowflake AI团队的研究者一直在做这方面的努力,团队成员过去曾开源了ZeRO、DeepSpeed、PagedAttention/vLLM和LLM360等系统,显著降低了LLM训练和推理的成本。

而今天推出的Arctic,在SQL生成、编码和遵循基准指令等企业任务上,表现非常出色。

它为具有成本效益的训练设定了新的基准,用户可以以极低的成本,就能创建满足企业需求的高质量定制模型。

Arctic也是一个真正的开放模型,在Apache2.0许可下,提供对权重和代码的无限制访问。

大约要走多少米

从今天开始,Snowflake Arctic就可以从Hugging Face上获取了。

计算资源仅用一半,表现却和Llama38B相当

团队发现,企业客户对AI有着一致的需求和使用场景——构建对话式SQL数据助手、代码助手和RAG聊天机器人。

为了便于评估,团队通过对编码(HumanEval+和MBPP+)、SQL生成(Spider)和指令跟随(IFEval)取平均值,将这些能力整合到企业智能这个单一指标中。

在开源LLM中,Arctic仅用不到200万美元(相当于不到3000个GPU周)的训练计算预算,就实现了顶级的企业智能。

更重要的是,即使与那些使用显著更高计算预算训练的模型相比,它在企业智能任务上也表现出色。

结果显示,Arctic在企业级评估指标上的表现,与Llama38B和Llama270B相当,甚至更优,而它所使用的训练计算资源却不到后两者的一半。

具体来说,Arctic使用的计算预算只有Llama370B的1/17,但在编程(HumanEval+和MBPP+)、SQL(Spider)和指令跟随(IFEval)等企业级任务上,都与其不相上下。

表1Arctic、Llama-270B、DBRX和Mixtral8x22B的模型架构和训练计算量(与活跃参数和训练token的乘积成正比)

此外,Arctic的高训练效率还意味着,Snowflake客户和整个AI社区可以以更加经济实惠的方式训练定制模型。

训练效率

为了实现如此高的训练效率,Arctic采用了独特的Dense-MoE Hybrid transformer架构。

该架构将一个10B规模的稠密Transformer模型与一个128×3.66B规模的残差MoE MLP相结合,虽然总参数量达到480B,但通过top-2gating的方式只选择了其中17B个参数保持活跃。

Arctic的设计和训练基于以下三个关键创新:

1. 更多但精炼的专家,以及更多的专家选择

首先,DeepSpeed团队在2021年末便证明了,MoE(Mixture of Experts)可以在不增加计算成本的情况下,显著提高LLM模型的质量。

其次,模型质量的提升主要取决于MoE模型中专家的数量、总参数量以及这些专家可以组合在一起的方式和数量。

基于此,Arctic被设计为拥有480B个参数,分布在128个细粒度专家中,并使用top-2gating选择17B个活跃参数。相比之下,最近的MoE模型使用的专家数量就要少得多了(如表2所示)。

从直观上看,Arctic利用更大的总参数量和众多专家来扩大模型容量,同时更明智地在众多精炼的专家中进行选择,并使用适度数量的活跃参数来实现资源高效的训练和推理,最终获得顶级的智能。

图2标准MoE架构 vs. Arctic

2. 架构和系统协同设计

即便是用最强大的AI硬件,想要基于普通的MoE架构训练大量专家效率依然很低。

其原因在于,专家之间存在的全通信开销非常高昂。不过,如果能将通信与计算重叠,那么就可以极大地降低这种开销。

因此,团队在Arctic架构中将一个密集的Transformer与一个残差MoE组件(图2)相结合,从而使系统能够通过通信计算重叠来消除大部分通信开销,最终实现了极佳的训练效率。

3. 面向企业的数据课程

要在代码生成和SQL等企业指标上表现出色,需要与训练通用指标的模型截然不同的数据课程。

团队在进行了数百次小规模的对比实验后发现,常识推理等通用技能可以在开始时学习,而编码、数学和SQL等更复杂的指标可以在训练的后期有效学习。

因此,Arctic采用了三阶段课程进行训练,每个阶段的数据组成不同——

第一阶段(1T Tokens)侧重于通用技能,后两个阶段(1.5T和1T Tokens)侧重于企业级技能。

表2Arctic三阶段训练的动态数据组成

推理效率

训练效率,只是Arctic高效的其中一个方面。

如果希望低成本部署模型,推理效率也同样至关重要。

作为MoE模型规模的飞跃,Arctic使用了比其他开源自回归模型更多的专家和参数。

因此,为了有效地在Arctic上运行推理,团队做了一些系统性的创新——

a) 在较小batch的交互式推理中(比如批大小为1),MoE模型的推理延迟受到了读取所有活跃参数所需时间的瓶颈,其中,推理是受内存带宽限制的。

在这样的批大小下,Arctic(17B活跃参数)的内存读取次数比Code-Llama70B少4倍,比 Mixtral8x22B(44B活动参数)少2.5倍,从而实现更快的推理性能。

为此,团队跟英伟达的TensorRT-LLM和vLLM团队展开合作,为交互式推理提供了Arctic的初步实现。

通过FP8量化,团队可以将Arctic放入单个GPU节点中。

虽然仍远未完全优化,但在批大小为1时,Arctic的吞吐量超过70+token/秒,这样就实现了有效的交互式服务。

b) 当批大小的规模显著增加,例如每次前向传递要处理数千个token时,Arctic就会从内存带宽受限转变为计算受限,此时推理的瓶颈就在于每个token的活跃参数。

在这一点上,与CodeLlama70B和Llama370B相比,Arctic的计算需求减少了4倍。

为了实现计算受限的推理和与Arctic中活跃参数数量较少相对应的高吞吐量(如下图所示),需要较大的batch size。

要实现这一点,需要有足够的KV缓存内存来支持较大的batch size,同时也需要足够的内存来存储近500B的模型参数。

面对这重重挑战,最终团队还是找到了办法。

通过使用FP8权重、分割融合和连续批处理、节点内的张量并行性以及节点间的管线并行性等系统优化组合,团队在双节点推理中,实现了这一目标。

图3推理期间编码(HumanEval+和MBPP+)、SQL生成(Spider)和指令跟踪 (IFEval)企业智能的平均值与活跃参数的对比

开源代码

新模型Arctic基础模型和指令微调模型代码全部开源,任何人可以将其用于研究、产品、原型当中。

项目地址:https://github.com/Snowflake-Labs/snowflake-arctic

研究人员基于LoRA的微调的pipeline和配方(recipe),并允许在单个节点上进行高效的模型微调。

现在,Snowflake正在与英伟达TensorRT-LLM和vLLM开展合作,为Arctic模型开发初始的推理实现,并且针对批大小为1的交互式使用进行了优化。

未来,他们还将与社区合作,解决真正大型MoE更大的批大小的推理复杂性。

Cookbook:https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

另外,Arctic现使用的是4k上下文窗口进行训练,研究人员还将开发一种基于注意力下沉(attention-sinks)的滑动窗口的方法,以支持未来几周无限序列生成能力。

下一步,将会扩展到32K上下文窗口。

团队介绍

Snowflake的CEO,是Sridhar Ramaswamy,是前谷歌高级副总裁。

在谷歌工作15年后,他成为Neeva的联合创始人,后来Neeva被Snowflake收购。

他在印度理工学院马德拉斯分校获得计算机学士学位,并在布朗大学获得计算机博士学位。

AI团队的一把手Vivek Raghunathan,也是前谷歌副总裁。

他曾担任微软研究员,后在谷歌从事机器学习、广告基础架构等方面工作,18年开始在谷歌担任副总裁,领导YouTube团队。

随后,他和Sridhar Ramaswamy共同创办了Neeva。

Raghunathan同样也是印度理工学院的校友,不过是在孟买分校获得的学士学位。之后,他在UIUC取得了硕士和博士学位。

为了发展AI,两人把DeepSpeed团队最顶尖的几个元老都挖了过来,包括Zhewei Yao和Yuxiong He。

Zhewei Yao在UC伯克利获得博士学位,研究兴趣在于计算统计、优化和机器学习。(在此之前,他2016年曾获得上交大数学学士学位。)

他从2021年开始便加入了微软,在微软担任首席研究员和研发经理,致力于高效的大规模训练和推理。

目前,他是Snowflake的高级科学家和SDE II,同时也是Snowflake大规模预训练创始成员。

Yuxiong He在微软任职13年,是DeepSpeed的创始人之一,最近加入了Snowflake。

她曾在新加坡南阳理工大学获得了计算机工程学士学位。

团队的另一位华人大牛Aurick Qiao,去年11月刚加入Snowflake。

CMU读博期间,他曾获得Osdi2022的最佳论文优胜奖。此前曾在微软、Dropbox工作。

魅族16荣耀30plus

曾担任Petuum CEO,以及LMNet的联合创始人。

Hao Zhang是UCSD的Halıcıoğ数据科学研究所和计算机科学与工程系的助理教授。

他曾获得了CMU计算机博士学位,师从Eric Xing。在攻读博士学位期间,他休学一段时间并在ML平台初创公司Petuum工作。

Hao Zhang在2023年联合创立了LMnet.ai,这家公司于同年11月加入了Snowflake。

他此前还共同创办了非营利组织LMSYS Org,该组织训练了此前十分流行的模型Vicuna以及发起和维护目前最重要的大语言模型评测机制:Chatbot Arena。

他本人的研究兴趣是机器学习与系统的交叉领域。

参考资料:

https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/


返回网站首页

本文评论
成龙发博悼念鸟山明 鸟山明曾说没成龙《醉拳》就没龙珠_鸟山明喜欢成龙
3月8日下午,知名影星@成龙在社交平台发文,对著名漫画家鸟山明的离世表达了深切的哀悼之情。他感慨道:“鸟山明先生,感谢你为我们创造了那么多不朽的经典作品,它们将永远与世界同...
日期:03-08
京东电脑数码与联想图像联合推出线下打印服务_京东联想一体机
  居家办公、网课学习的浪潮来势汹汹,许多人第一时间入手打印机提高办公和学习效率,然而当遇到打印机字迹不清晰、吞纸等问题时,还是只能千里迢迢寄送维修。不过,最近京东电...
日期:07-10
三星平板tab s7发售「三星因“经济因素”将旗舰平板电脑Galaxy Tab S9系列推迟到明年发布」
三星曾计划在今年推出Galaxy Tab S9系列,但由于包括经济在内的一些因素,该公司显然没有什么选择,只能推迟发布。Galaxy Tab S9系列原计划于2022年12月推出,但据The Elec报道,三星...
日期:10-08
谷歌宣布:Android 13正式开源 源代码已公开!华为小米等厂商可用了(谷歌正式发布Android)
Android是开源的系统,这是大家都知道的事情,不过每个版本什么时候开源,也要看谷歌的进度。现在,谷歌正式对外宣布,Android 13已经开源,新系统源代码已经发布到Android开源项目(AOSP...
日期:08-19
马斯克的航天计划「马斯克称中国航天工程计划更加超前」
5月30日 消息:中国载人航天工程在5月29日的新闻发布会上公布了下一步的发展计划,明确表示目标是2030年前实现中国人首次登陆月球。联想拯救者r7000 2021显卡macbook pro没显...
日期:05-30
稚晖君在华为做什么「稚晖君承认已离开华为  将创业做更有挑战的事」
12月27日 消息:以“天才少年”身份加入华为的@稚晖君 近日被曝已经离职。今天中午,稚晖君 发文承认已经离开华为,将开始创业。他表示:“传言不虚,细节不表,接下来我会开启一段新...
日期:12-27
10代酷睿定价「Intel 13代酷睿国行价格公布!有的涨400、有的降100」
Intel今天正式发布了Raptor Lake 13代酷睿处理器、Z790主板芯片组,国行价格也已公开。13代酷睿首发还是六款K、KF系列无锁频版本,具体价格如下——苹果市值蒸发掉1.5亿部iPhon...
日期:10-06
复旦大学团队发布中文医疗健康个人助手DISC-MedLLM 单轮问答和多轮对话均表现亮眼
9月1日 消息:复旦大学数据智能与社会计算实验室(FudanDISC)发布了中文医疗健康个人助手DISC-MedLLM。该模型在单轮问答和多轮对话的医疗健康咨询评测中表现出色,相比已有医学对...
日期:09-01
装甲核心是电脑游戏吗「微软推出《装甲核心 6》定制款 XSX 主机,仅限抽奖获取」
IT之家 8 月 19 日消息,微软与《装甲核心 6:境界天火》开发者合作设计了一款定制版 Xbox Series X 主机,与《光环》定制版主机类似,但仅限抽奖获取。美的colmo洗衣机价格快手直...
日期:08-21
上百台手机首测北斗通信真壮观!华为:我们甩了对手4万公里_华为用的北斗
快科技11月6日消息,今天华为心声社区”刊载了终端卫星通信团队捅破天”的故事。文中讲述了华为终端卫星通信团队让北斗卫星消息落实到手机的往事,其中包括北斗三号系统开通以...
日期:11-07
统一给一个月底薪补偿 曝特斯拉(上海)撤回所有应届生offer_上海特斯拉底薪会涨吗
【】4月24日消息,近日,有网友在社交媒体爆料称,特斯拉校招违约,单方面撤回offer,特斯拉HR回复说是撤回了所有应届生offer,春招已经结束了。随后,脉脉平台上亦有人爆料称,特斯拉(上海)...
日期:04-24
抖音电商:过去一年优质内容创作者数量增长484%_抖音短视频市场份额
2月9日 消息:抖音电商“寻找同行者”举办优质内容分享专场,数据显示,截至去年10月,抖音电商优质内容创作者数量较年初增长484%;平台挖掘优质短视频超147万条,助力超26万名创作者...
日期:02-10
买前必看!折叠屏的槽点可不止一点点_折叠屏值得买吗
对于有折叠屏手机的人来说,折叠屏没有使用体验几乎是不争的事实。但对于想要买折叠屏手机的人来说,蠢蠢欲动的小火苗却很难被掐灭。厂商为了推广,彼此之间仅在具体参数上互相伤...
日期:11-12
iPhone SE4曝光:6.1寸刘海屏预定真香机_iphone se 4寸
iPhone 14被指诚意不足而且定价偏高,或许你可以考虑一下iPhone SE4了。据Display Supply Chain Consultants(DSCC)分析师罗斯·杨(Ross Young)称,第四代iPhone SE将采用6.1英...
日期:10-20
腾讯1000万股「腾讯最大股东投资20年赚超7000倍:仍持有26亿股」
11月25日消息,日前,腾讯控股最大股东南非Naspers荷兰子公司Prosus披露最新资产数据,截至11月23日,其持有腾讯控股26.137亿股,对比10月28日数据,一个月减持了7890万股。今年6月,该公...
日期:11-27
美团翻身!送一单赚4块钱 还收了160亿佣金「美团外卖3块钱一单挣钱么」
11月25日,美团公布三季度财报:营收达人民币626亿元,同比增长28.2%;净利润12.2亿元,上年同期亏损99.9亿元。财报显示,包含餐饮外卖、酒旅、闪购等业务的核心本地商业分部在三季度收...
日期:12-04
英特尔Arc A770和A750显卡将于10月12日正式推出「a75主板支持什么显卡」
英特尔终于宣布了让玩家们期待已久的Arc显卡系列的硬性推出日期,其中,英特尔Arc A770和A750将首先推出,并将于10月12日上市。下面是A770的包装图:英特尔Arc A770是英特尔有史以...
日期:09-28
999元起!荣耀平板 X8 Pro发布:搭载11.5英寸2K屏「荣耀平板v8pro」
荣耀昨晚在发布会上正式推出了荣耀平板X8 Pro,该平板以其卓越的性能和出色的设计备受关注。荣耀平板X8 Pro采用全金属一体化机身设计,厚度仅为6.9mm,重量为495g,提供珊瑚紫、天...
日期:07-06
华为手环b6怎么连接手机蓝牙「华为手环b6」
近年来,智能手环成为许多人健康管理的必备工具,其中是备受推崇的一款产品。采用了AMOLED高清屏幕,支持触摸滑动操作,同时具备运动监测、心率监测、睡眠监测、血氧检测等多种功能...
日期:05-29
梅西微博发文:向中国球迷道歉_梅西微博热搜
近日,梅西未上场香港表演赛引球迷以及业内人士不满。今日晚间,@梅西LeoMessi10 在微博发文,向中国球迷道歉。华硕ROG phonevivo s10 pro 拍照以下为全文:iphone14和13pro哪个值...
日期:02-08