您的位置:首页 > 互联网

超节点规模越大越好? 全面解析AI系统中的的超节点规模设计逻辑

发布时间:2024-03-06 12:40:09  来源:互联网     背景:

1 什么是超节点?

传统AI服务器由GPU、内存、CPU,外存等组成,互相之间通过服务器内CXL总线互联,对外通信则通过以太网/Infiniband(IB)网络接口。在AI大模型时代,单个GPU显存不足以放下一个几百上千亿的模型,因此会引入模型并行的方式。用于模型并行的几台服务器之间会有非常密集的流量,而以太/IB带宽不足。由此,业界引入了超节点的概念。

所谓AI训练的超节点,是指多个GPU通过总线互联,外观上呈现为一个较大的服务器,NVIDIA的DGX Pod就是一种典型的超节点架构。其实在AI智算时代到来之前,大概十多年前,游戏发烧友口中的“四路Titan”,即在一个机箱中放4块GPU,就是一个小型超节点。那么超节点具体是如何服务于AI大模型训练的呢?

1.1 超节点的优势

高互联带宽

当前用于超节点内互联的带宽,一般都在几百GB/s的级别,作为对比,以太网/IB的速率当前主要是200/400Gbps,这两者之间相差一个数量级。因此,超节点内的GPU相互访问要比机外访问的带宽高很多,便于训练时交换参数和同步数据。

简化组网部署

超节点将多个GPU封装在一台服务器之中,内部总线已经连好。因此在搭建大规模AI集群时,使用超节点能大大减少网络部署的复杂度,也降低了后期运维的成本。比如一个千卡集群,如果采用一机16卡的超节点,则变成了64台服务器互联,而不是一千台服务器互联。

1.2 超节点承载的AI智算流量

AI大模型训练时,模型大小从百亿到万亿,训练样本是TB量级。因此无论是模型还是样本,对单个GPU来说都太大了,AI大模型训练一定会用到多GPU并行,典型的并行模式如图 1所示。

图 1 AI大模型训练PTD并行示意图

在传统的PTD并行中,Tensor并行(TP)和Pipeline并行(PP)用来拆分模型,Data并行(DP)用来拆分训练样本。这三种并行在逻辑上是相互正交的,即图 1中三维立方体的表述方式。在这个立方体中,X, Y, Z三个方向分别是PP,TP和DP。这也就是说,每个GPU在不同并行时,会和不同的GPU通信,而且通信量也有差异。一般来说,DP和PP的通信量较小,一轮迭代在百MB~GB级别;TP的通信量较大,一轮迭代在百GB级别。

所以,超节点的引入,可以将通信量很大的TP并行放到超节点内,利用高带宽,降低通信开销。而对于PP和DP通信,本身通信量不大,就没有必要再将其放入超节点了。

2 超节点越大越好么?

超节点带来了机内高互联带宽,那自然一个问题就是,超节点规模是否越大越好呢?答案是否定的。

2.1 超节点对于中小模型无收益

第一章分析,超节点主要对通信量较大的Tensor并行收益高。Tensor并行主要在百亿以上大模型中存在,对于中小模型,Tensor并行几乎没有。或者有,也只是TP=2/4/8这种规模比较小的情况,当前一机8卡服务器内部总线就能放得下。此时大规模超节点就不能带来收益。

2024年初,OpenAI推出的文生视频大模型Sora又引起了AI领域热烈的讨论。Sora虽然很神奇,能够生成1分钟高质量的视频,但其背后的模型,据推测不超过30亿。30亿的模型现有GPU单卡就能放的下,不需要Tensor并行,从而训练Sora这类的视频生成模型,也不需要超节点的参与。

2.2 超节点规模存在甜点

中小模型没收益,那是不是对于大模型,超节点规模就越大越好呢?也不尽然。系统设计除了关注性能外,还要考虑性能提升带来的成本提升。诚然,超节点越大,系统的训练效率肯定越高,但随着规模增长,提升的效率可能无法弥补超节点增大带来的高昂成本。

图 2 不同超节点规模下系统效率仿真

图 2 对千亿~十万亿的模型,分别做了不同集群规模,和不同超节点规模下的系统效率仿真。可以看出,对于万亿大模型,超节点甜点在16,十万亿大模型甜点在32~64. 在越过甜点后,继续增加超节点规模,性能提升很低。

2.3 规模过大会引入可靠性问题

超节点越来越大时,不仅仅性能提升越来越小,而且可能会带来可靠性问题,导致过大的超节点反而让系统效率出现劣化,即“花更多的钱,效果反而不如从前”。

超节点内的互联是总线类协议,例如传统PCIe,NVIDIA的NVLink等等。总线协议本身不像以太网络协议那样,有复杂的可靠性设计,因为这样会带来很大的协议开销。更何况总线协议设计也不需要这些设计,因为总线是在单个主板上运行,走线都是内部的电路板,本身可靠性很高。

但当超节点规模增大时,单个主板已经放不下太多的GPU,这时,不可避免的要通过光模块和光纤来进行大规模互联。而光模块和光纤的可靠性远不如主板内电路,所以超节点规模太大会让整个系统的可靠性急剧降低。对于AI大模型训练而言,出现故障意味着整网需要重启训练任务,重新加载模型和之前存储的checkpoint检查点,这会使训练成本急剧增加,甚至超过超节点性能提升带来的成本收益。因此可靠性问题不解决,超节点就不那么划算。

2.4 超节点部署的实际情况

2023年5月,NVIDIA对外宣称了GH200,超节点规模达到了256,但在实际Amazon Elastic Compute Cloud(Amazon EC2)部署时,规模只有32(GH200 NVL32),如图 3所示. H100的超节点也宣称能达到256,然而DGX-H100仍然维持和前代一样的一机8卡架构。NVIDIA用实际产品证明了,超节点不是越大越好。

图 3 上图:GH200宣称256超节点规模。下图:AWS实际部署的GH200 NVL32,超节点规模为32

3 超节点规模甜点的推导

上面提到了无论是仿真结论,还是NVIDIA实际产品形态,超节点规模都不大。本章节将对超节点性能进行理论建模,半定量的来解释为什么超节点规模存在甜点。

3.1 超节点承载不同并行的收益

1.2节中提到,大模型训练的TP, PP, DP三种并行中,TP通信量大,而PP和DP通信量小。所以超节点涵盖TP域收益高,进一步涵盖PP和DP域收益并不高。

这里做一个简单的估算,GPT-3这样的典型大模型,一轮迭代时间在10-30秒。一轮迭代内,一个GPU的TP通信量在500GB左右,PP和DP通信量在10GB左右。如果GPU对外网络是200Gbps,超节点内网络(使用NVLink4数据)带宽450GB/s=3600Gbps. 那么TP通信使用机外网络和超节点内网络耗时分别为20秒和1.1秒;DP或者PP通信使用机外网络和超节点内网络耗时分别为0.4秒和0.02秒。

由此可见,相比于迭代的10-30秒而言,TP通信使用超节点节约的19秒非常可观,而DP/PP通信节约的0.38秒收益就比较低了。所以从成本最经济的角度来说,超节点的甜点就是能覆盖典型大模型的TP域大小。

那么典型模型TP域大小又是多少呢?接下来先推导一下大模型的模型并行总尺度,即需要多大,然后再分析TP和PP分别取值多少比较合适。

3.2 模型并行的总尺度

万亿稠密模型,每个参数2字节,总参数量为2TB。训练时额外的梯度、优化器状态是模型参数量的7倍,这部分是静态显存占用开销。除此之外,还有动态显存用于存储计算时的中间变量,主要是正向计算的激活值。一个合理的估算是模型参数量的十倍,即10*2TB=20TB的数据量。当前典型GPU NVIDIA A100的显存标称为80GB,实际可以利用在70GB左右,因此需要300张卡才能完整放下一个万亿模型,即 TP X PP = 300,而对于十万亿模型, TP X PP = 3000。.

3.3 超节点的甜点——最佳TP域大小估算

问题可以转变为:大模型参数给定,系统总卡数N给定, TP X PP 给定,因此DP也是一个定值, 。若训练时的batch size和sequence length也给定,那么TP取值为多少时,系统的一轮迭代时间最短?

典型模型训练中,PP和DP占据的时间较短,而且通常可以被计算掩盖。那么一轮迭代中,时间主要由三部分构成:计算时间,TP时间,和PP带来的气泡大小。下面分别分析

在给定上述参数后,一轮迭代中系统总的计算量就确定了,计算公式是 ,这个值再除以N,即得到一张GPU上的计算量,这是个和TP, PP无关的数值。记单卡计算时间为常数C1。

一轮迭代TP的通信量正比于每个mini-batch样本数目,即batch size/DP,也正比于要进行多少次TP,这个和一张GPU上存储的大模型层数相关,可以通过L/PP得到,L是大模型总共的层数。所以TP通信量反比与DP和PP,这相当于正比于TP,因为 是个定值。记单卡TP时间为, C2为常数。

迭代中气泡大小和计算时间的比值,称作系统的bubble ratio. 它等于PP除以一个mini-batch中,micro-batch的数目。后者在micro-batch设定为1时,等于batch size/DP,DP固定时该值固定。所以气泡占用时间正比于PP,记为, C3为常数。

于是系统一轮迭代时间Time为:

根据平均值不等式,在给定时,如果满足,则Time取极小值,即一轮迭代时间最优化。此时, A为给定的数值。

关于C2和C3的推导,本文从略,这里给出对于典型大模型, 在0.4~1之间。那么对于万亿模型,A=300,TP=11~17;十万亿模型,A=3000,TP=35~55. 这和2.2节仿真结果,万亿模型超节点16,十万亿模型超节点32~64,是一致的。

4 谷歌曾经提出过关于超节点收益的公式

谷歌在推出TPUv5 multislice工作时,发表了一篇文章《How to scale AI training to up to tens of thousands of Cloud TPU chips with Multislice》。文章中提出:集群算力规模正比于:1)Global Batch Size, 2)单芯片跨超节点带宽,3)超节点内芯片数目。

opporeno8

这篇文章提出后,引起了学术界和业界热烈的讨论。大家普遍认为:做大超节点规模,做大网络带宽,就可以提升训练模型的理论上限算力。然而,上面分析得出,超节点并不是越大越好。规模过大时,不仅有可靠性问题,也会让性能越过甜点,出现规模继续增大但性能不再提高的情况。那么谷歌的推论问题出在哪里呢?

4.1 算力规模公式介绍这里对文章中公式进行简单推导:

其中,模型Global Batch Size固定,模型的Mini Batch Size由单芯片的算力和带宽之比决定,这个数在公式中定义成为了DCN arithmetic intensity. 具体来说,单芯片一秒钟能算m个样本,一秒钟能传输n个样本,则理想的Mini Batch Size= m/n. 这样可以充分利用计算和通信资源,互相不成为瓶颈。超节点内整体考虑时,算力和带宽都会乘以超节点内芯片数,Mini Batch Size的比值不变。

有了Global Batch Size和Mini Batch Size后,整网数据并行的数目,即超节点数目Total number of ICI domains required = Global Batch Size / Mini Batch Size. 然后再乘以超节点内算力,消去单芯片算力(FLOPs/chip)后,得到最后一行蓝色的公式。

4.2 公式的假设和问题 

该公式假设一个超节点恰好放一个完整模型。在这个假设下,超节点数目=数据并行份数(DP值)=Global Batch Size/Mini Batch Size,即图中蓝色框所示。那么此时超节点大小等于,因此较大。

实际上,可以一个超节点内放多个模型;也可以多个超节点共同放一个模型,互相之间用pipeline并行(PP)。PP对带宽需求远不如TP,因此DCN带宽能够胜任。这也是3.1节中分析的,超节点放下TP即可,再把PP放入,收益并不高。

4.3 对谷歌公式总结

根据上述分析,公式假设超节点至少要放下,但经过前面建模分析,超节点的甜点放下TP就能满足要求。

其实可以从另一个角度理解这个公式,除了超节点规模外,公式中提出集群规模还正比于机外网络带宽。所以,如果超节点不需要很大,那反过来应该需要较大的DCN/参数面网络带宽,来提升集群的算力性能。简言之,相对做大超节点,降低参数面带宽的路;合理的超节点规模+较大的参数面网络带宽才是更合理的路线。

5 结论

超节点通过在主机内高速总线互联,以提升大模型训练Tensor并行通信效率。超节点的价值在于增大全局通信带宽的成本太高,转而通过增加局部带宽来达到最大的收益。

超节点规模并不是越大越好,首先中小模型不需要超节点参与,对于大模型而言,仿真显示超节点的规模存在最优的“甜点”,规模过大性能不再提升,反而会造成成本浪费。当前千亿~万亿模型,超节点设计在16比较经济,AWS购买的GH200也只增加到了32. 这是因为未来十万亿模型,超节点设计在32~64也足够了。过大的超节点在系统设计时不可避免会遇到可靠性下降的问题。

因此,虽然超节点对于AI大模型训练很有用,但一个高质量的AI系统不仅仅是把超节点做大就行,还需要将运行模型大小,成本边际效益,超节点外以太网带宽等因素综合考虑。


返回网站首页

本文评论
奔驰车的广告「大众之后,奔驰车机被曝推送广告_网易订阅」
IT之家 9 月 28 日消息,如今广告真是无处不在,电视机有广告、手机有广告,现在连汽车都要推送广告了,而作为交通工具,安全性是最重要的,车机推送广告势必会对行车安全产生影响。近...
日期:10-01
苹果成本增千元!iPhone14 Plus上市破发 黄牛不敢囤:网友直言最不保值机型
没有让人意外,iPhone 14 Plus上市后就破发,这可能也是网友送它年度最不保值手机的称号吧。从第三方商家最新报价看,iPhone 14 Plus国行价格已经比官方便宜几百元,而更贵的版本最...
日期:10-08
美团统计数据「美团发布“世界杯”餐饮数据」
12 月 14 日消息,美团数据显示,受“看球经济”带动,超过3%的餐饮商家销售出世界杯主题套餐,小组赛以来,世界杯主题团购套餐线上订单量环比赛前增长113%。根据美团数据,上海、深圳...
日期:12-14
适应低价电商的这一年:有人省下200万求生,有人SKU翻倍,有人拉新增长两不误
声明:本文来自于微信公众号亿邦动力(ID:iebrun),作者:郑雅,授权转载发布。新一年,“低价保量”之局是否仍然延续?“如果平台继续实行低价战略,我们还可以把售价压低,但是平台得为商...
日期:02-26
12元在家看国产科幻大片!《流浪地球2》全网上线:爱优腾会员不免费
快科技4月14日消息,今日下午16:00,国产科幻大片《流浪地球2》正式在全网上线,这个周末在家就能与家人一起欣赏了。根据爱奇艺、腾讯视频页面显示,非会员用户需要花12元才能观看...
日期:04-14
施一公创办西湖大学的初衷「当场称要修改遗嘱捐钱西湖大学 俞敏洪对谈施一公被感动」
【】6月28日消息,近日,中国科学院院士、西湖大学校长施一公携新书《自我突围——向理想前行》做客俞敏洪老俞闲话直播间。3099元起售索尼ps5国行正式发布穿短裤爬泰山会冷吗二...
日期:09-23
苹果14钛合金「头一次!iPhone 15 Ultra将配钛金属外壳:更加坚固耐用」
今年iPhone 14系列受欢迎程度上的两级分化恐怕会让苹果重新思考明年iPhone 15系列的产品策略,此前已经有消息称,iPhone 15系列高端版本的差异化会被进一步放大。iphone13抢购...
日期:10-27
男孩查分显示全省前31名:两次考上大学又复读、清华都不满意_高考男孩
近日,各省份陆续放榜,开放高考成绩查询,各种学霸”故事频频曝光。6月24日,安徽合肥,考生葛新宇查分的时候发现居然显示无成绩”,一阵慌乱,还以为考试出错被判无效。iphone8指纹识别...
日期:06-25
特斯拉因种族歧视被判赔偿超300万美元,曾一度被判赔1.37亿_特斯拉赔偿事件
4月4日消息,一名前电梯操作员奥文·迪亚兹(Owen Diaz)在特斯拉公司工作期间遭遇种族歧视,旧金山联邦陪审团裁定特斯拉需向他支付300万美元的惩罚性赔偿和17.5万美元的非经济损害...
日期:04-04
华为抢先苹果支持卫星通信!全球首颗北斗短报文SoC芯片进入量产「苹果芯片 华为芯片」
在华为和苹果的带动下,“卫星通信”成为最近热议的话题之一,业内猜测,华为将携手北斗三号系统实现手机卫星通信技术的大众化应用。日前,国内独立第三方集成电路测试技术服务商利...
日期:09-16
比亚迪3月份销量2021「比亚迪汽车3月各车型销量出炉:三大家族破4万 海豚破3万」
昨日,比亚迪公布2023年3月乘用车销量快报:当月累计销售206089辆,同比增长97.5%。流浪地球中行星发动机原理2023年3月,EV车型102670辆,DM车型103419辆,3月比亚迪新能源乘用车海外出...
日期:04-03
11月将出现红月亮奇观 抬头可见:还有火星合月等惊叹景观_近期月亮奇观
在即将到来的11月,将有一次精彩的月全食天象上演,我国大部分地区人们都可以看到月全食的全食阶段,也就是红月亮”,越往东部地区,观测条件越好。央视新闻记者从北京天文馆获悉,这次...
日期:11-04
以硬核科技为依托,禾赛科技携手滴滴自动驾驶开启产业合作新格局
  自动驾驶是目前的前沿话题,在相关技术不断升级迭代的过程中,安全问题始终不容忽视,利用前沿科技助力自动驾驶安全已经成为很多科技型企业的战略重点。6月初,全球领先的3D传...
日期:05-28
iOS版Skype存在漏洞 可导致地址簿被窃_skype被盗号
  据科技博客Techcrunch报道,3.0.1及之前版本的iOS版Skype“聊天信息”窗口存在跨站点脚本漏洞,可导致用户的手机地址薄被窃。   该漏洞使得攻击者可以执行恶意JavaScrip...
日期:07-23
马云vr「马云的全新赛道浮出水面,不是预制菜」
1月23日 消息:最近,马云的一系列投资动作曝光,进军的全新赛道浮出水面。他新开的公司有“一米八”、“马家厨房”,其中“一米八”旗下的子公司包括:海洋科技、农业科技、发酵科...
日期:01-23
iphone如何延长电池寿命苹果延长iPhone电池寿命的神技能__延长苹果电池使用寿命的方法
来源:中关村在线英伟达声明家长对猿辅导的建议技嘉rtx3090显卡多少钱根据最新的报道,苹果公司的iPhone系列手机在市场上的表现强劲,为公司带来了可观的利润。然而,用户普遍抱怨...
日期:02-21
三星s21ultra骁龙888「对标iPhone 15!三星Galaxy S24曝光:骁龙8 Gen3加持」
快科技6月25日消息,三星将在明年上半年推出Galaxy S24系列旗舰,该系列对标的是iPhone 15系列。据报道,三星Galaxy S24内部代号是Muse1,Galaxy S24 Plus内部代号是Muse2,Galaxy S2...
日期:06-25
国家数据网官网「国家数据局动态汇总与分析」
通信世界网消息(CWW)国家数据局自揭牌以来一直动作不断,局长刘烈宏多次进行调研、讲话,并发布《数字经济促进共同富裕实施方案》《“数据要素×”三年行动计划(2024—2026年)》重...
日期:01-31
网友吐槽服务区充电桩比加油贵 官方:从未改价 已上报_服务区充电桩是快充还是慢充
近日,有网友爆料称,在江西赣州康大高速大余服务区的特来电充电桩,充电费用高达2.98元/度,甚至超过了油车加油的费用。据这位网友的计算,如果按照正常电动车在高速上的电耗,每百公...
日期:02-01
15666666666手机号拍出1366万元天价_手机号拍出48万元
今天上午联通一款号码为15666666666的靓号公开开卖,起拍价达到了1366万元,并且保证金为68.8万,昨日在阿里资产网站开启拍卖,此次拍卖已于今日 10 点结束。。遗憾的是,活动界面显...
日期:10-11