您的位置:首页 > 互联网

中国移动发布面向超万卡集群的新型智算技术白皮书_中国移动2020智能硬件

发布时间:2024-04-29 23:03:40  来源:互联网     背景:

摘要

自ChatGPT发布以来,科技界掀起了一场大模型的竞争热潮。数据成为新生产要素,算力成为新基础能源,大模型则成为新生产工具,各行各业从“+AI”向“AI+”的转变已势不可挡。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡集群成为这一轮大模型基建军备竞赛的标配。

万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对。然而,如何在万卡集群中实现高效的训练,并长期保持训练过程的稳定性,是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。

对此,中国移动于近日发布面向超万卡集群的新型智算技术白皮书,白皮书提出超万卡集群的核心设计原则,并在计算、存储、网络、平台及机房配套等多个领域提出关键问题和解决方案。

李玟宝莲灯365天

中国移动2020智能硬件

一、背景与挑战

自ChatGPT面世以来,大模型步入了迅猛发展期,AI技术的发展带动产业大规模升级的同时,也带来了对巨量算力和能源的需求。大模型对底层算力、空间、水电能源产生极大消耗,对新一代智算设施的设计要求也日益严苛。新型智算中心相关技术将继续被推向新的高度。无论是通信运营商、头部互联网企业、大型AI研发企业还是AI初创企业,都在通过自建或使用万卡集群加速其在人工智能领域的技术突破和产业创新。随着万卡集群建设的不断深入,我们预见这一趋势将为整个智算产业的发展带来深远影响。当前,万卡集群的建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的万卡集群仍在极致算力使用效率、海量数据处理、超大规模互联、高能耗高密度机房设计等方面面临诸多挑战。

二、设计原则和总体架构

在大算力结合大数据生成大模型的发展路径下,万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转。超万卡集群的总体设计应遵循坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展五大设计原则。

万卡集群的总体架构由四层一域构成(如图1),四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。

图1 面向超万卡集群的新型智算总体架构设计

三、关键技术

集群高能效计算技术:随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU(Data Processing Unit)实现多计算能力融合以及追求极致算力能效比。这些系统性的提升将共同支持更大规模的模型训练和推理任务,满足迅速增长的业务需求。

高性能融合存储技术:为了实现存储空间高效利用、数据高效流动,并支持智算集群大规模扩展,万卡集群应采用多协议融合和自动分级存储技术,提升智算数据处理效率,助力万卡集群支撑千亿乃至万亿大模型训练。

大规模机间高可靠网络技术:万卡集群网络包括参数面网络、数据面网络、业务面网络、管理面网络。业务面网络、管理面网络一般采用传统的TCP方式部署,参数面网络用于计算节点之间参数交换,要求具备高带宽无损能力。数据面网络用于计算节点访问存储节点,也有高带宽无损网络的诉求。万卡集群对参数面网络要求最高,主要体现在四个方面:大规模,零丢包,高吞吐,高可靠。

高容错高效能平台技术:智算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化,还需要借助高效的算力调度平台,根据算力集群的硬件特点和计算负载特性实现最优化的算力调度,来保障集群可靠性和计算效率。针对以上问题,业界多以断点续训、并行计算优化、智能运维等作为切入点,构建高容错高效能智算平台。

新型智算中心机房设计:面向高密度高能耗智能算力发展,对于部署超万卡集群的新型智算中心来说,需要在确保智能计算设备安全、稳定、可靠地运行的前提下,具备高效制冷、弹性扩展、敏捷部署、绿色低碳等特征,并实现智能化运维管理。

四、未来展望

随着数据规模的持续扩大、集群能力的不断增强以及大模型应用的日益丰富,对新型智算底座的升级提出了更高的要求。面对未来,我们呼吁在超节点、跨集群训练、软件框架等领域实现技术突破,以强化智算基础设施能力。与此同时持续探索存算一体、光子芯片等先进技术领域与智算中心的结合,为下一次信息变革奠定基础。

点击链接即可下载白皮书

中国移动推动数智化转型


返回网站首页

本文评论
苏州·张家港首届全球数字经济创新创业大赛上海分赛成功举办 清科创业中心倾情助力
  5月19日,“数聚港城 智创未来”苏州·张家港首届全球数字经济创新创业大赛沪上摆“擂台”。本次大赛由江苏张家港市委市政府与国投人力资源服务有限公司联合主办,张家港...
日期:02-25
NVIDIA 高管:银行必须为人工智能热潮做好准备「银行业人工智能应用场景研究」
7月26日 消息:全球芯片制造商 NVIDIA 的金融服务行业全球副总裁 Malcom DeMayo 表示,银行业需要为人工智能(AI)的蓬勃发展做好准备。虽然生成式 AI 具有潜力,但这种新一代的 AI...
日期:07-26
行业唯一纯平背板+超竞全面屏:红魔9 Pro系列已成电竞旗舰终极形态
行业唯一纯平背板+超竞全面屏:红魔9 Pro系列已成电竞旗舰终极形态 通信产业网|2023-11-23 17:56:46作者:党博文来源:通信产业网11月23日,红魔电竞旗舰最新力作——红魔9 Pro系列...
日期:11-29
美团与三甲医院医生展开合作 提供24小时在线问诊、开药服务_美团等待医生开方
11月7日 消息:今日,美团官方公布数据称,为了积极响应健康中国行动要求,美团买药于2021年联合药店药企共同发起了“小黄灯”民生服务计划,在全国推广24小时药店。经过1年多的努力...
日期:11-08
病毒席卷全国_安全报告称十大病毒集团控制80%病毒传播渠道
  2月16日,国内互联网安全厂商金山网络今日发布的《2010-2011中国互联网安全研究报告》显示,目前有80%病毒的传播渠道被国内数十家病毒集团所控制,这些病毒集团借此获得巨额...
日期:07-26
女子去世留下400万别墅无人继承 因欠下超一千万元债务_女子欠款百万消失七年
无锡的商人巫某去世后留下了一套价值400万元的别墅,但由于她欠下了超过一千万元的债务,家人不愿意继承这笔遗产。法院调查后发现涉及债权、债务关系错综复杂,别墅被南宁市青秀...
日期:04-02
华为荣耀waterplay平板参数「华为荣耀waterplay」
华为荣耀WaterPlay是一款橙色、蓝色和灰色三种颜色可供选择的平板电脑,它有两种尺寸可选:8英寸和10.1英寸,并配备了高端的配置和多种功能,如下:配置和设计:水货荣耀WaterPlay配备...
日期:05-31
买前必看!折叠屏的槽点可不止一点点_折叠屏好吗
对于有折叠屏手机的人来说,折叠屏没有使用体验几乎是不争的事实。但对于想要买折叠屏手机的人来说,蠢蠢欲动的小火苗却很难被掐灭。厂商为了推广,彼此之间仅在具体参数上互相伤...
日期:11-14
与标准版差距再扩大 iPhone-15 Pro系列拥有6大独占功能_苹果15pro尺寸
去年的iPhone 14系列尤其其中的iPhone 14 Pro凭借首次取消了刘海,带来了标志性的灵动岛的巨大变化,使其成为了iPhone 14系列乃至近年来最受好评的iPhone机型。而随着新的一年...
日期:09-21
meta nlp「Meta 推出 LayerSkip:提升大语言模型推理速度」
4月28日 消息:Meta公司最新发布了LayerSkip,这是一款端到端的解决方案,专门设计用于提升大型语言模型(LLM)的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验,并...
日期:04-28
苹果13粉色和远峰蓝「苹果 iPhone 14 / Pro 系列配色爆料:紫色将取代粉色和远峰蓝」
IT之家 8 月 31 日消息,一周后,苹果将为大家带来全新的 iPhone 14 和 iPhone 14 Pro 系列机型。Twitter 爆料者 @Jioriku 和 Naver 爆料者透露了一些关于新机的配色信息。李彦...
日期:09-05
google竞争对手「OpenAI动荡之际 谷歌Meta等竞争对手抢夺客户」
11月23日消息,在美国人工智能初创企业OpenAI内部动荡之际,竞争对手纷纷以激励措施吸引其客户转向其平台。谷歌表示,旗下销售团队已经发起一项活动,试图说服客户放弃OpenAI。谷歌...
日期:11-23
三星p1000怎么样_三星p108
三星P1000是一款由三星公司推出的平板电脑,其重量为380克,尺寸为190 x 120 x 12 mm,搭载了 Android 2.2操作系统,支持GSM/WCDMA网络和WIFI网络,并内置了1GHz的处理器,能够满足大多...
日期:05-29
“周鸿祎”「周鸿祎能办个人车展了 网友实拍360楼下已停放数十辆国产汽车」
快科技4月29日消息,近日,周鸿祎高调卖迈巴赫,换购国产新能源汽车一事,引起网友关注热议。各厂家闻风而动,迅速给周鸿祎送车体验,360总部大楼下,已经停放了几十辆国产新能源汽车。移...
日期:04-29
让钓鱼网站无处遁形,360WiFi6守护考生安全备考(网络安全钓鱼)
  7月7日上午9点,全国高考正式拉开大幕。每年高考季,都会出现不法分子在钓鱼网站上兜售所谓“高考真题”“绝密答案”,这些标榜着准确率极高、违约退款等诱惑信息的网络诈骗...
日期:07-14
北京市版权局:网站传播侵权作品将被约谈_北京版权局和国家版权局
针对近年来层出不穷的网站侵犯版权现象,为了维护权利人的合法权益,促进版权资源信息共享,市版权局于昨天发布了《信息网络传播权保护指导意见》。该意见将于8月1日起正式实施...
日期:07-28
梅西发文称因腹股沟有伤没能出场 健康时报:短期很难恢复_梅西腹肌
2月8日消息,近日,梅西未上场香港表演赛引球迷以及业内人士不满,昨日晚间,梅西账号发布微博称:很遗憾因为腹股沟有伤没能在香港站的友谊赛中出场,我的伤处发肿并有痛感。”然而梅西...
日期:02-09
苹果智能戒指专利曝光 主要服务于AR场景「苹果研发智能戒指 网友笑称扳指or顶针?」
苹果最近获得了一项名为"US11625098B2"的设计专利,该专利涉及智能戒指的设计,可用于增强现实(AR)或虚拟现实(VR)场景。ios16主动粘贴不再弹窗怎么解决用户需分别戴上左右手的智...
日期:04-12
美国无线宽带提供商Clearwire CEO因个人原因离职
  新浪科技讯 北京时间3月11日早间消息,美国无线宽带提供商Clearwire周四下午表示,该公司CEO比尔·莫罗(Bill Morrow)将因为个人原因离职,他的职位将由该公司董事长、行业元...
日期:07-26
三星在的One UI 5.0测试版中复制了iOS 16的锁屏定制功能_三星one ui怎么锁定应用程序
iOS 16的最主要功能之一是锁屏定制功能。该功能与iPhone 14 Pro上的"灵动岛"相结合,为用户如何定制锁屏和创造真正属于自己的个性化内容提供了新的思路,从一开始推出就收到认...
日期:10-02