您的位置:首页 > 互联网

大模型计算性能有瓶颈?也许你该检查下网络吞吐了「da模型」

发布时间:2023-08-03 18:32:22  来源:互联网     背景:

通信世界网消息(CWW)随着人工智能的快速发展,AI模型不断向大规模方向发展,而分布式并行计算是实现AI大模型训练的关键手段。在这个计算过程中,网络吞吐是影响分布式训练质量和速度的重要因素。本文将就网络吞吐对AI训练的影响以及如何通过增加通信效率促进AI集群算力线性提升进行探讨。

一、分布式并行计算是实现AI大模型训练的关键手段

随着AI模型规模的不断扩大,单GPU,单服务器已经无法满足计算和存储需求,分布式并行计算应运而生,即将计算任务以数据并行、流水线并行及张量并行等分布式并行方式分配到多台服务器上,来加快模型训练速度。

在数据并行模式下,数据被分割成多个部分,分配给不同的计算设备进行并行计算。这种并行模式需要多次集合通信操作来传递计算结果;在流水线并行模式下,不同的计算设备分别处理输入数据的不同阶段,每个阶段的结果通过集合通信操作传递给下一个阶段;在张量并行模式下,不同的计算设备分别处理输入数据的不同维度或不同部分,进行并行计算,这种并行模式同样需要多机多卡间的集合通信操作,以保证计算结果的准确性和训练效率。

因此,整网的集合通信性能对于Al网络的性能至关重要,网络性能决定了数据并行、流水线并行和张量并行等不同并行模式的效率,并直接影响集群对大模型训练的时间。

二、网络性能会直接影响分布式训练的效率

苹果16会是全面屏吗

在分布式计算环境中,不同计算机之间需要频繁地进行数据交换和通信。因此,网络性能的优劣会直接影响分布式训练的质量和速度。如果网络吞吐不够大,数据传输就会成为瓶颈,从而限制了分布式训练的效率。

首先,让我们来看看allreduce通信特征。allreduce是一种集合通信操作,用于将所有工作节点的结果进行汇总并返回。在allreduce中,同一时间均为点到点通信,无多打一,流数少,单流带宽大,流量模型是对分流量。理想目标是所有流量都能够在1:1无收敛的网络中均衡传输,从而使整网吞吐达到100%。

模型算法的作用

然而,在实际应用中,ECMP多路径时流量哈希冲突会导致带宽不均衡,进而影响端侧数据发送带宽。在allreduce的流数少,流量大的情况下,基于ECMP进行负载均衡的网络中,网络节点仅站在自身视角将流量通过哈希选路发送,会出现流量Hash不均甚至HASH极化最终导致链路拥塞、出端口拥堵,整网利用率低等问题。

图1:Hash冲突的两种典型场景

另外,由于这个流量特征是由于通信库导致的,因此不论是IB还是RoCE都面临这个网络负载不均衡问题。

图2:英伟达在2023云网智联大会上介绍IB的负载均衡问题

领百万保障送华为5G手机

图3:基于经典模型Halving Doubling Allreduce算法仿真的数据

在拥塞时,拥塞时队列深度增加,导致长尾时延增大,这是影响集合通信性能的关键因素,降低网络长尾时延可有效提升训练完成时间。

图4:集合通信里的长尾效应

因此,网络性能对分布式训练的质量和速度有着重要的影响。在AI DC中必须要采取相应措施来优化网络负载均衡的问题,以保证整网利用率的最大化进而保障整个AI集群的效率最大化。AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。

三、通过增加通信效率促进AI集群算力线性提升

在没有实现全局负载均衡的网络中,整体通信效率为30%~56%之间,这说明有一半的网络性能没有被使用,也就意味着整个集群的算力使用率仅仅为30%~56%左右。在AI计算场景下,网络负载分担不均问题是当前业界的一个重大的难题,Google就曾指出在其数据中心中存在多级HASH不均问题导 致10K规模组网下整网吞吐低于25%的问题。

为了提高网络吞吐,进一步释放集群算力,业界已经有很多尝试和方案:

3.1英伟达通过自适应路由来解决负载不均问题,网络吞吐从50%提升到90%

图5:英伟达InfiniBand网络自适应路由方案

图6:英伟达RoCE网络自适应路由方案原理

图7:英伟达RoCE网络自适应路由方案效果

在ECMP图中,某些流具有相同的带宽和完成时间,而其他的流因为冲突,导致完成时间更长,带宽更低。具体来说,在ECMP场景中,一些流实现了13秒的最佳完成时间T,而最慢的流量需要31秒,大约是最佳流量的2.5倍T时间。而在RoCE自适应路由图中,所有流都在大约相同的时间,峰值带宽相似。

3.2中国移动发布全调度以太网架构白皮书,旨在解决网络负载不均衡问题

与传统以太网基于流进行负载分担的机制不同,GSE (全调度以太网)交换网络采用定长的PKTC 进行报文转发及动态负载均衡,通过构建基于PKTC 的DGSQ 全调度机制、精细的反压机制和无感知自愈机制,实现微突发及故障场景下的精准控制,全面提升网络有效带宽和转发延迟稳定性。

图8:GSE网络端到端流量转发示意图

GSE 面向无损、高带宽、超低时延等高性能网络需求业务场景,兼容以太网生态链,通过采用全调度转发机制、基于PKTC 的负载均衡技术、基于DGSQ的全调度技术、精细的反压机制、无感知自愈机制、集中管理及分布式控制等技术,实现低时延、无阻塞、高带宽的新型智算中心网络。

3.3华为AI Fabric基于NSLB实现整网吞吐提升至98%

AI训练大流为主(100MB~几GB),流数量少,单流通信数据量大,传统网络更易负载不均,常年吞吐仅有50%;每个周期内最慢的一条流到达后,才能进行下一轮通信,性能取决于最慢的流。

华为采用NSLB2.0算法,可根据整网交换机节点流拥塞状态和全网拓扑进行全局算路,识别出最优路径,整网吞吐可提升至98%。

图9:NSLB优化以太网负载均衡机制,实现整网满吞吐

图10:NSLB在某实验室测试效果,网络性能最高提升113%

网络吞吐是AI DC的核心关键指标,AI网络的吞吐直接决定整个智算中心的效率高低

由于网络作为整个数据中心内的通信高速公路,其枢纽作用对计算效率,整体投资和能源消耗都有放大效应,网络性能10%的提升,能够撬动整体性能、投资和能耗数倍的提升:

1.更高效完成训练任务,降低TTM:运力驱动算力,通过全局网络负载均衡技术可以使训练任务更高效的完成,效率最高可提升22%左右。如使用512张V100完成1750亿参数的GPT3训练,配套传统负载均衡技术训练大约需要8.75个月,而在全局负载均衡下的训练可以缩短到7个月,提前释放的资源可用于其他任务,为算力集群带来更高收益。

2.实现集群性能完美线性扩展,降低Capex:在智算中心软硬件基础设施的建设中,近70%投资用于计算设备,网络占比低于20%,剩余部分为存储和安全设备。如果网络存在负载不均问题,此时能释放的集群算力仅有60%左右。但通过改进网络负载均衡技术,可通过占比不到20%的网络拉动3倍以上投资的算力资源,实现集群性能完美线性扩展。

3.节能减排,降低Opex:节省的算力资源除一次性购置成本外,其所配套的机架、能耗等成本同样可观。千卡昇腾910B集群的整体供电需求可达760KW,通过网络负载均衡技术节省的算力资源以外,还可节省由于非线性扩展带来的额外电费80万/年。

综上所述,网络吞吐是AI DC的核心关键指标。衡量AI网络性能的关键指标是整网的集合通信性能(allreduce),在规划、建设AI DC的前期,需要针对网络性能制定相应的建设规范和设定性能指标,并在正式部署前进行严格的功能和性能测试,确保网络不能成为算力释放的瓶颈。例如可以设定网络线性度指标来衡量网络的整体性能:

最后,没有针对性进行负载均衡优化的网络不适用于AI DC,不论是IB网络还是RoCE网络。


返回网站首页

本文评论
百度机器人是人工智能吗「消息称百度将在3月推出AI聊天机器人 很像ChatGPT」
凤凰网科技讯 北京时间1月30日消息,知情人士称,百度公司计划推出一款人工智能(AI)聊天机器人服务,和最近爆红的ChatGPT类似,可能会成为中国在聊天机器人竞争中备受关注的一款产...
日期:01-30
无畏契约国服最新消息「国服《无畏契约》,腾讯一念成佛,一念成魔」
声明:本文来自于微信公众号银杏科技(ID:yinxingcj),作者:何云飞,授权转载发布。2023年7月12日,《瓦罗兰特(VALORANT)》国服开启公测,并正式命名《无畏契约》,代表着该款国外现象级fps...
日期:07-13
特斯拉得克萨斯工厂已生产出第20000辆Model Y 近43天生产10000辆_特斯拉model y量产时间
10月31日消息,据国外媒体报道,在9月17日生产出第10000辆Model Y之后,产能不断提升的特斯拉得克萨斯超级工厂,又迈上了新台阶,已经生产出了第20000辆Model Y。特斯拉在当地时间周...
日期:11-02
这里是全球最赚钱的市场,也是最封闭的市场_全世界最大的市场
360随身wifi好用不   ;郑峻   网购人肉中国手机   Shubham;Mazumdar是硅谷洛斯阿尔托斯(Los;Altos)一名小有名气的医生。在工作之余,他的最大爱好就是数码设备,尤其是玩各...
日期:08-17
中国移动杨杰:乘信息科技之风 启网络文明新程_移动杨杰董事长提出的四个转变
7月18日,由中央网信办、中央文明办、中共福建省委、福建省人民政府共同主办的2023年中国网络文明大会在福建厦门正式开幕。在大会主论坛上,中国移动党组书记、董事长杨杰围绕...
日期:07-19
拼多多投入产出比27「拼多多:二季度研发开支26.114亿元,同比增12%」
  讯 北京时间8月29日晚间消息,拼多多(Nasdaq:PDD)今日发布了截至6月30日的2022年第二季度财报。财报显示,拼多多第二季度总营收为314.396亿元(约46.938亿美元),与上年同期的230....
日期:08-31
游客观潮时险被卷走:逃跑时还在拍照_观潮被卷走又被拍回
6月5日消息,浙江宁波一位游客近距离观看涨潮险被卷走,有人逃跑”还不忘拍照。专家提醒,潮景壮观之处往往是危险之处,涌潮的推进速度及摧毁能力非血肉之躯所能抗衡,其压力高达7吨/...
日期:06-06
SpaceX正在大肆招聘 准备把加州发射火箭的数量增加一倍_space x公司发射火箭
SpaceX正计划大幅提高其从美国西海岸发射火箭的频率,这一信息来自于SpaceX的猎鹰9号运营经理为该公司在西海岸发射设施招募新员工的广告。SpaceX从三个地点发射任务,其中两个...
日期:09-23
达尔优a87_达尔优&国家宝藏 ▎感受中国质造的魅力
  每一种文明都延续着一个国家和民族的精神血脉,每一件文物背后都有着可歌可泣的故事。   以史为鉴,以心承之。《国家宝藏》为我们传颂着宝藏背后的故事,传承着中华五千...
日期:07-15
《狂飙》的艺术总监是张译:本人主演电影票房破200亿「张译票房37亿的电影是?」
2月1日消息,有网友发现正在热播的大剧《狂飙》通告单中显示,男主扮演者张译不仅是男一号演员,还是剧组的艺术总监,该剧的另外一位主演张颂文也曾透露剧中很多名场面是张译设计的...
日期:02-01
华语乐坛复兴!AI孙燕姿翻唱歌曲爆红全网「孙燕姿热门歌曲」
5月9日 消息:最近,“冷门歌手”孙燕姿竟靠着AI替身,翻唱华语乐坛歌曲爆红全网。网友纷纷表示在B站听AI孙燕姿翻唱的林俊杰「她说」、周董「爱在西元前」、赵雷「成都」等歌曲...
日期:05-09
2021年第二届企业智慧出行高峰论坛圆满举办,易企出行赋能企业出行数字化
  中国企业出行服务市场已有过千亿的规模,在宏观政策指引、企业数字化升级、共享经济崛起的形势下,企业出行服务行业未来将会有更加快速与更有深度的发展。在企业传统的用...
日期:03-09
盛夏将临 快使用三星Galaxy Tab S8系列高效移动办公
时至五月盛夏将至,转眼间天气就一天比一天热了起来。将厚实的春装脱下,穿上轻盈的夏装,在这样一个“换季”的时节,轻装简行无疑是大家的一致选择。而对诸位职场人士而言,除了身上...
日期:05-09
淘宝联盟双十一预售返利「淘宝联盟双11玩法公布 提供15亿补贴」
9月29日 消息:近日,淘宝联盟向全体合作伙伴发出了以“稳健经营 聚势共赢“为主题的合作伙伴大会邀请函,大会将于2022年10月9日星期日10:00-15:00举行,同时还并公布了双11政策与...
日期:09-30
独家_独家童话
讯 7月28日晚间消息,独家获取的一份音频文件显示,每日优鲜由于融资还未到账,陷入运营困难,并在今天下午宣布清退大部分员工。这份录音文件显示,每日优鲜员工的社保缴纳到7月,从8月...
日期:07-31
重返月球!NASA启动最强大的火箭月底发射 网友:NASA被中国逼急了「nasa宣布月球重大发现」
近些年,我国嫦娥系列飞船探月取得了突破性的进展,嫦娥五号成功实现取月壤并返回地球,这让探月大哥的美国真可谓是无地自容。早在1969年-1972年,美国先后登月6次,携带大量月壤返回...
日期:09-14
百度公布文心一言邀请测试方案 支持文字转视频_百度文心ernie
今天,百度公布了文心一言的邀请测试方案。百度的创始人、董事长兼首席执行官李彦宏和百度首席技术官王海峰出席了发布会,并展示了文心一言在文学创作、商业文案创作、数理推算...
日期:03-16
联想a310一体机拆机图解「联想a310」
是一款中端笔记本电脑,它的性能表现在同级别产品中处于较高水平。下面我们从外观、性能、价格等方面来进行评价。拍电脑屏幕条纹外观方面,整体采用黑色塑料外壳,配有金属元素,看...
日期:05-29
立讯精密4000亿「立讯精密:预计2022年盈利95.45亿元至98.99亿元」
10月30日消息,立讯精密发布2022年年度业绩预告,预计2022年归属于上市公司股东的净利润为95.45亿元至98.99亿元,同比增长35%–40%;扣除非经常性损益后的净利润为92.19亿元至96.13...
日期:11-11
马斯克意外,分析师:特斯拉打广告是重大利好_特斯拉奖励马斯克
5月18日消息,美国电动汽车制造商特斯拉召开年度股东大会后,公司计划打广告的消息受到了投资者的热烈追捧。特斯拉首席执行官埃隆·马斯克(Elon Musk)后来承认,股东们对此表现出的...
日期:05-18