您的位置:首页 > 互联网

智算基础设施的挑战及展望_智算中心规划建设指南

发布时间:2024-10-15 23:41:57  来源:互联网     背景:

通信世界网消息(CWW)从GPT-4出现到Sora亮相,再到Claude3.0上线,每当有现象级的AI产品问世,人们都会惊叹,AI的“iPhone时刻”是否已经到来。尽管围绕生成式AI(AIGC)的潜力存在许多不确定性,但AIGC当前显示了足够的潜力和希望,并已经能够创作出媲美人类的作品,初步打破了人与机器之间的沟通障碍,标志着AI技术实现一次重大飞跃,人类社会已经毫无疑问地进入了AI时代,对全球社会发展和宏观经济持续产生深远影响。

算力作为AI的核心三要素(算力、算法、数据)之一,无疑是当前最受重视的方向,也是当下AI方向投资规模最大的领域。2024年,各国政府和企业加大对AI基础设施建设的投入力度,千卡智算中心已经不能满足大模型训练和迭代的要求,万卡或十万卡规模的AI集群建设成为2024年的主流方向。以OpenAI、Meta、Google为代表的头部AI玩家陆续启动“万卡+”规模AI集群建设,尤其2024年初Meta宣布推出两个24k GPU集群(共49152个H100),开启了其雄心勃勃的基础设施建设路线图,Meta将持续扩大基础设施建设,到2024年底将包括35万个NVIDIA H100 GPU,其计算能力将相当于近60万个H100,实现1天之内完成千亿级参数大模型训练的目标。

万卡集群建设挑战一:系统规模设计

智能计算基础平台

万卡集群建设的第一个挑战是系统规模设计,当我们要建设一个32k GPU集群,按照主流的OAM模组形态服务器,每台服务器8块GPU,整个集群需要有4000台GPU服务器。万卡集群需要满足以下四个特定条件。

一是智算中心相比云数据中心多了一张用于GPU服务器通信用的参数网,而标准的北向业务网、存储网络、管理网络一个不能少。

二是服务器内GPU互联带宽很大(NVLink可以实现900Gbit/s带宽),PCIe5.0x16的单向最大带宽可到64Gbit/s,因此跨服务器通信设计建议每个GPU独享一个网卡(200G或400G),每个服务器上有8个网卡用于参数网接入。

三是由于跨服务器接入带宽流量较大,同时因为大模型训练的突发流量原因,参数网一般会考虑1:1的网络收敛比,即网络设备的上行带宽和下行带宽保持一致,而传统云数据中心或业务网络收敛比每层按1:2、1:4或者更高设计。

android 碰撞检测

因此对于32k GPU集群建设,我们实际面对的是32k端口接入、收敛比1:1、层级尽量压缩的网络设计,规模远远高于传统4k服务器双端口接入、收敛比1:2/4的情况。

海南免税iphone12 pro

四是对于GPU互联通信,互联时延也是影响通信的关键因素,要尽可能缩短通信跳数,同时保持每个GPU相同的通信条件,因此接入交换机的端口规模决定了第一级集群的最大规模。让我们来计算一下,每台服务器需要上行8个端口,如果希望A服务器上每个GPU都可以和B服务器上的GPU只有一跳,假设接入交换机可用于下行接入的端口数为P,那么第一级规模为P×8块GPU,共需要8台接入交换机,即每个服务器GPU对应的网卡按序号接入到不同的交换机,GPU0接入第1台交换机、GPU1接入第2台交换机……按此依次完成8个GPU对应网卡的接入。如果交换机端口密度为128×400G,意味着通过8台交换机可以满足64台服务器(总计512块GPU)在1跳内完成跨服务器通信,另外64个400G端口可以用于上行。更大规模集群基本可以按照这个64台服务器的组合来横向扩展,每64台作为1个POD设计,只要满足上下收敛比1:1即可。

智慧基础设施建设

是否POD越大越好?也不尽然,设计目标应该是在POD范围内尽可能覆盖模型并行(张量并行、流水线并行)所需要的GPU规模,在二层网络实现数据并行。如果模型规模已知,那尽量按该模型所需要的模型并行规模来设计就行,一般来说,控制在128~256个GPU左右,足以满足大部分千亿及以下参数规模模型的模型并行训练要求。

因此如何选择合适的网络设备,满足规模部署的端口数量要求,并匹配大模型训练的流量特点,给出优化的整体架构设计,是万卡集群建设的第一步。

万卡集群建设挑战二:持续保障连续性和稳定性

大模型训练是典型的分布式任务,在万卡级规模下,分布式并行训练(包括数据并行和模型并行)都会遇到严峻挑战。模型并行时,将模型分割到不同节点。模型激活状态同步等需要大规模节点间高效通信,对互联网络的带宽和延迟要求极高,如何结合GPU显存大小、算力、通信互联带宽,合理规划张量并行、流水线并行的切分粒度,是模型训练规划的关键问题。而数据并行时,每个节点需要不断与其他节点交换梯度更新信息,通信开销会成为性能瓶颈,如何合理规划数据并行的规模,是大规模分布式训练的核心问题。

此外,分布式深度学习框架在作业调度、容错、异步并行等方面的能力在万卡级场景下也会受到考验。分布式训练框架可通过优化集群通信库和通信模,如环形all-reduce、双向压缩等方式,减少通信开销和冗余数据传输,可通过支持RDMA/RoCE v2网络来提升通信效率,降低通信时延;可通过支持混合精度计算减少计算复杂度,加快模型训练计算。

同时,如何在GPU或网络出现故障时,在尽可能短的时间内控制故障范围或快速恢复训练业务,是模型开发者面临的最大问题。

从以上挑战和问题可以看出,超大规模的大模型训练优化是一项系统工程,因此需要建立完整的管理、监控、定位以及调度系统。

在资源管理层面,需要实现全局资源池化,统一调度各种硬件资源,建立全局拓扑,从服务器内部GPU到跨服务器、跨POD的通信拓扑;从网络、服务器、存储等硬件管理到容器化作业部署和管理,建立清晰的模型训练作业到对应工作硬件的映射管理。

在作业监控层面,需要建立系统化监控体系,支持实时采集GPU、网络、存储等各类状态信息,支持实时采集容器化作业的状态信息,支持实时采集大模型训练过程中每一步计算的关键指标,并加以关联,让模型训练作业人员清晰地看到训练进展,让基础设施管理员清晰地看到集群系统状态和业务状态。

智能基础设施建设

在作业调度方面,需要设计工作负载感知的智能调度策略,以快速定位故障点,给出故障影响的业务范围和服务器分布,并且可以根据业务亲和性、拓扑亲和性,确定新的作业调度策略,快速启停故障作业。

万卡集群建设挑战三:实现高效率和高性能

衡量万卡集群效率和性能的唯一指标,就是训练大模型的完成时间。大模型分布式训练是典型的计算密集型和通信密集型场景,2020年OpenAI在其论文《Scaling Laws for Neural Language Models》中第一次提出了scalelaw,即对于D e c o de r-onl y的模型,计算量C(Flops)、模型参数量N、数据大小D(token数),三者满足:C=6ND,而计算量C等于训练时间×有效算力。这也揭示了,在模型规模、训练数据量已知的条件下,训练时间基本就取决于有效算力大小,而有效算力就是充分提高n张GPU的有效工作时间,尤其在集群训练下,让GPU充分、高效、持续计算,就成为关键。

董宇辉微博

因此,分布式大模型训练的核心就是计算和通信,如何充分利用算力,同时充分降低通信成本、缩短故障时间,让有效算力最大化,是提升万卡集群的正确方向。

万卡集群建设挑战四:降低能耗

随着摩尔定律走入瓶颈期,高性能GPU的代价就是高能耗,单GPU的功耗已经达到了700w·h,英伟达下一代B系列GPU的功耗甚至达到了单卡1000w·h,这也意味着GPU服务器整机功耗会突破10kW·h,数据中心的整体供电能力,包括单机柜的供电能力将深受考验。对于标准42u高机柜,放入4个6u~8u高的GPU服务器基本是极限了,还要考虑ToR交换机和配线架所占用的空间,这种部署密度下,单机柜的供电基本要求60kW·h,32k规模AI集群差不多要10000个机柜,整体供电要求则超过60万kW·h。而目前大部分数据中心的单机柜供电能力低于30kW·h,放2台GPU服务器就可以,整体机柜数量翻倍,能耗要求会更高些。这对电网是严峻的考验,也是部分数据中心直接建在发电站附近的原因。

智算基础设施展望

总而言之,实现万卡集群下天级大模型训练目标,需要在系统规模设计、训练稳定性保障、集群效率优化等方面进行全面攻坚。

在系统规模设计方面,需要充分考虑GPU互联带宽、通信延迟等因素,采用分层分区的网络架构,合理规划每个POD内的GPU数量,确保大模型的高效并行训练。在训练稳定性方面,建立统一的集群管理平台、故障诊断体系和快速恢复机制,确保训练任务的持续高可用。在集群效率优化方面,深入分析计算和通信的关键影响因素,采取有针对性的技术手段。如计算优化、通信优化等,最大限度提升万卡集群的整体训练性能。

只有在这四大方面取得全面突破,才能真正实现超大规模的大模型训练,进而加速人工智能在各行各业的落地应用。未来,随着算力规模的持续提升、训练技术的不断优化,十万卡乃至百万卡级的大模型训练环境也将成为可能。智算基础设施的高效稳定运行,将推动AI产业链的良性发展。从算法到硬件、从基础研究到应用落地,AI产业生态将更加完善,为更多创新驱动型企业提供支撑,人工智能将在政务、教育、医疗、交通、制造等各领域发挥越来越重要的作用,改变人类社会的生产和生活方式。我们有理由相信,通过持续的技术创新和应用实践,人工智能将成为引领未来社会变革的关键力量。


返回网站首页

本文评论
华为iMaster NCE荣膺GlobalData全球领导者桂冠,三大价值框架引领光网络业务品质演进
日前,全球权威咨询公司GlobalData公布了最新的2023《WAN SDN Controller: Competitive Landscape Assessment(广域网SDN控制器:竞争力格局评估)》,华为iMaster NCE在领先供应商中...
日期:09-27
实景版《千里江山图》震撼上线,全能科技旗舰荣耀Magic3系列用影像传承文化
  8月18日,荣耀Magic3系列携手中国国家地理、天猫超级品牌日赋活《千里江山图》的视频震撼上线。视频中,中国国家地理借助荣耀Magic 3的电影工业级影像系统,将《千里江山图...
日期:07-17
猿辅导xDorisDB:构建统一OLAP平台,全面升级数据分析能力
  猿辅导公司的数据中台部门为猿辅导、斑马、猿编程、小猿搜题、猿题库、南瓜科学等各个业务线的产品、运营、研发提供标准化的数据集(OneData)和统一数据服务(OneServic...
日期:11-09
山寨官网陷阱重重 金山毒霸可精确拦截(金山毒霸广告拦截)
  央视每周质量报告播出《假冒官网以假乱真 陷阱重重谋取暴利》中提到,工商部门对假冒官网兜售假冒伪劣产品很难监管到位。金山毒霸安全专家指出,对于山寨网站这种欺诈行为...
日期:07-24
华为支付是什么意思啊「华为做支付,合理!」
近日,中国人民银行同意了华为旗下支付机构讯联智付更名为花瓣支付。从 2021 年曲线获牌,到 2022 年注册商标,再到从“讯联智付”摇身一变成为“花瓣支付”, 华为支付有备而来的...
日期:10-27
特斯拉订单千万别转让「马斯克:特斯拉允许车主“一次性”转让FSD」
凤凰网科技讯 7月20日消息,特斯拉今日公布了第二季度业绩报告,在随后的分析师电话会议上,马斯克表示,特斯拉用户可以在今年第三季度“一次性”将FSD转移到另一辆车上。这样,客户...
日期:07-20
成本下降时利润一定是增加的_成本下滑净利润也下滑 阅文原地踏步
来源:北京商报   2017年11月上市的阅文习惯半年发布一次财报,在至今披露的5份半年报中,只有2022年8月15日发布的2022年上半年财报出现了营收同比减少。根据财报,阅文2022年上...
日期:08-17
6千万3D模型、7万张原画……《全职高手》大电影是这样“炼成”的
  以超人气小说为起点,这几年《全职高手》有了改编漫画、热播动画、实体书、有声书、手游、周边衍生品、以及基于虚拟偶像的各种跨界营销。今年更是迎来其重磅衍生作品爆...
日期:02-13
智能手机和普通手机的区别_智能手机与普通手机有何区别
智能手机和普通手机的区别智能手机与普通手机之间的最大区别在于其功能和互联性。智能手机允许用户利用高速互联网连接处理电子邮件、足球比赛、电视节目等,而用户可对普通手...
日期:05-28
宁夏的算力为什么发展得这么好?
通信世界网消息(CWW)作为数字经济的关键底座,算力如今是数字经济发展的基础竞争力,全国各省市都在大力进行算力建设。最近2023年中国算力大会在银川举办,宁夏也借机对自身算力能...
日期:08-23
倒在转“码”路上的文科生
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者 | 王敏 编辑 | 向小园,授权转载发布。“人人皆可程序员”,近两年,“转码”似乎成为了一种潮流,但从来都不是零风险,更算不...
日期:10-09
素皮绿色版亮眼,华为 nova11 系列及全场景新品发布会定档 4 月 17 日「华为emui11发布会」
4月10日消息,华为终端宣布,将于 4 月 17 日 14:30 召开华为 nova11 系列及全场景新品发布会。华为 nova11 系列全新配色一同公布。小米11pro支持33w快充吗真我gt和真我gt neo...
日期:04-10
百度网盘:用户数突破8亿 用户存储数据总量超1000亿GB「百度网盘浏览量」
11月25日 消息:今年是百度网盘十周年,百度今日公布数据称,截至目前,百度网盘用户数已突破8亿,用户存储数据总量已超过1000亿GB,年均增长60%。百度网盘通过手表、车机、耳机等共计...
日期:12-03
大众之后,奔驰车机被曝推送广告_网易订阅「奔驰车的广告」
IT之家 9 月 28 日消息,如今广告真是无处不在,电视机有广告、手机有广告,现在连汽车都要推送广告了,而作为交通工具,安全性是最重要的,车机推送广告势必会对行车安全产生影响。手...
日期:09-29
2024第三届世界元宇宙大会将于11月在武汉召开_世界互联网大会元宇宙
8月13日,科技日报记者操秀英从中国仿真学会获悉,为将世界元宇宙大会打造成全球元宇宙研究交流合作平台,推动武汉市建成未来产业创新链、产业链、价值链协同发展的我国元宇宙创...
日期:08-15
从浏览器沦为系统毒瘤:无法禁用的IE背后,是几百亿的家族生意
2022年6月15日星期三,微软宣布要停止更新自家的 IE 11 了。这款当年脚踢 Netscape 拳打 Safari 的浏览器霸主半只脚走进了自己的坟墓。今年的 2 月份,微软再次面向全球通知,将...
日期:04-13
强无敌M2 Ultra加持!苹果官翻Mac Pro 2023款上架:优惠近万元_官翻18款macbookair
快科技9月20日消息,苹果每次在新产品发布几个月之后,都会推出官方翻新版本,其实整体体验与新机无异,但价格却有大幅优惠。在今年6月发布的Mac Pro 2023款现在已经推出了官翻版,目...
日期:09-20
防患于未“燃”:NB-IoT瞄准7亿烟感市场_NB智能烟感
  消防安全无小事。我国人口众多,大城市人口尤其密集,且工作居住环境相对复杂,例如出租屋、老旧商铺、小区等,如果没有完善的消防警报措施,容易引发火灾事故,最为典型的是2017...
日期:09-12
中兴通讯唐雪:5G和AI双轮驱动,加速新型工业化进阶_中兴通讯 cto
通信世界网消息(CWW)6月26-28日,由全球移动通信协会(GSMA)主办的世界移动通信大会(MWC)上海在上海新国际博览中心和上海浦东嘉里大酒店举行,本届大会以“未来先行(Future First)”为主...
日期:06-27
比5G强10倍!华为重大突破:5.5G关键技术测试全面完成_华为5g技术标准
快科技10月22日消息,在IMT-2020(5G)推进组的组织下,华为已于9月11日率先完成5G-A全部功能测试。小米redmi9a手机有没有指纹据华为中国”公众号介绍,近日,华为又全面完成5G-A技术...
日期:10-23