您的位置:首页 > 互联网

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

发布时间:2024-03-01 16:53:38  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 ,授权转载发布。

随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注:

文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。

具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

oppo reno9系列什么时候出

在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。

论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper架构(H100/H800)集群。

小米智能电子血压计使用说明

适用于万卡集群的生产系统

大模型时代,GPU的重要性已无需赘述。

但大模型的训练,并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别,如何实现高效、稳定的训练,本身就是一个颇具挑战的工程问题。

第一重挑战:效率。

训练大语言模型并非简单的并行任务,需要在多个GPU之间分布模型,并且这些GPU需要频繁通信才能共同推进训练进程。通信之外,操作符优化、数据预处理和GPU内存消耗等因素,都对算力利用率(MFU)这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战:稳定性。

我们知道,训练大语言模型往往需要花费非常长的时间,这也意味着,训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的,因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战,字节跳动的研究人员构建了MegaScale,并已将其部署到字节的数据中心中,用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

具体改进包括,算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等:

京东方科技集团股份有

  • 算法优化:研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制(SWA)和LAMB优化器,来提高训练效率而不牺牲模型的收敛性。

  • 通信重叠:基于对3D并行(数据并行、流水线并行、张量并行)中各个计算单元操作的具体分析,研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟,缩短了模型训练中每一轮的迭代时间。

  • 高效操作符:对GEMM操作符进行了优化,对LayerNorm和GeLU等操作进行了融合,以减少启动多个内核的开销,并优化内存访问模式。

  • 数据流水线优化:通过异步数据预处理和消除冗余的数据加载器,来优化数据预处理和加载,减少GPU空闲时间。

  • 集体通信群初始化:优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下,2048张GPU的集群初始化时间是1047秒,优化后可降至5秒以下;万卡GPU集群的初始化时间则可降至30秒以下。

  • 网络性能调优:分析了3D并行中的机器间流量,设计技术方案提高网络性能,包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。

  • 故障容忍:在万卡集群中,软硬件故障难以避免。研究人员设计了一个训练框架,来实现自动故障识别和快速恢复。具体包括,开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到,MegaScale能够自动检测和修复超过90%的软硬件故障。

实验结果表明,MegaScale在12288个GPU上训练175B大语言模型时,实现了55.2%的MFU,是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下:

One More Thing

就在这篇技术论文引发讨论之际,字节类Sora产品也传出了新消息:

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

看样子地基已经打好,那么对于字节的大模型产品,你期待吗?

论文地址:

https://arxiv.org/abs/2402.15627

—完—


返回网站首页

本文评论
spacex公司总裁「14岁“天才少年”成SpaceX新员工 母亲是华尔街高管」
埃隆·马斯克(Elon Musk)的SpaceX迎来了有史以来最年轻的员工凯兰·夸齐(Kairan Quazi),他是一名14岁的孟加拉国裔美国人后裔软件工程师。夸齐在LinkedIn分享他的成就时,对加入S...
日期:06-20
浙江一女子半年笑晕4次上热搜!医生道出病因
今日消息,微博话题浙江一女子半年笑晕4次”冲上热搜榜。据媒体报道,浙江宁波的王阿姨今年因为开怀大笑晕倒了4次,她来到医院就诊。医生检查后判断,王阿姨得的是肥厚型梗阻心肌病...
日期:11-14
华为不会再有mate50了么「Mate50时隔两年归来,华为的竞争对手已不是苹果?」
Tech星球(微信ID:tech618)文|杨晓鹤moto x一代封面来源|图虫创意9月6日,时隔两年归来,华为再次发布了Mate系列手机。虽然发布会依旧有“吊打苹果”传统,不过“余大嘴”余承东一句...
日期:09-17
阿里达摩院发布语言模型plug「直接开源,阿里达摩院公布下一代工业级语音识别模型」
IT之家 12 月 22 日消息,阿里巴巴达摩院今日发布了新一代语音识别模型 Paraformer,适用于语音输入法、智能客服、车载导航、会议纪要等场景。星火枢纽工程联合办公基地运动相...
日期:12-22
创价值、同信念、共成长——2023超聚变合作伙伴大会在京举行
通信世界网消息(CWW)“创价值、同信念、共成长”,8月18日,超聚变数字技术有限公司(以下简称:超聚变)2023合作伙伴大会在北京举行。来自全国各地超过1500家行业、商业、服务生态伙伴...
日期:08-18
乐信Q3营收27亿元,用户数1.84亿同比增19%__乐信一季度财报
11月17日消息,乐信(NASDAQ:LX)发布2022年三季度未经审计财务业绩:2022年第三季度贷款发放总额为562亿元人民币,较2021年第三季度的558亿元人民币增长0.7%。乐信2022年第三季度营收2...
日期:11-25
小米14供不应求 雷军:相比小米13 跨越式升级_小米14和13.3哪个好
快科技11月3日消息,小米14自上市后供不应求,该机起售价是3999元。苹果外包给中国谁获利当前京东自营店显示,小米14 16GB 512GB版本黑色是采购中状态,预计11月21日之后会有货。作...
日期:11-03
iPhone 13新功能曝光(iPhone13彻底曝光!你想知道的,一次性全告诉你!)
  (原标题::支持天体摄影+息屏显示)   在各大安卓手机大秀“拍月亮”神技之后,苹果也未能免俗,加强了与天体摄影相关的研发。   据外媒EverythingApplePro爆料,苹果将于20...
日期:07-16
联想3D塑形尺_联想3D塑形尺 斩获成功设计大奖
  体态分析功能可让用户预知体态隐疾,针对局部定制训练指导。   3D塑形尺运用高精度的3D结构光深度相机技术在30秒内对人体骨骼点进行三维检测,精确测量用户的体型数据...
日期:07-14
索尼半导体CEO:智能手机CIS每年需求约50亿颗 未来重点布局车用CIS_手机cis芯片
10月31日消息:据日经新闻报道,索尼半导体CEO清水照士日前接受专访时表示,即使智能手机市场已经见顶,每年的销量也有 12 亿- 13 亿部,加上3- 4 个CIS,所以智能手机CIS每年有 50 亿...
日期:10-31
微软 Xbox 宣布将在 TGA 带来新作情报及重要公告_xbox游戏发布
IT之家 11 月 29 日消息,据 IGN 报道,微软确认Xbox将在今年的 TGA活动上带来一些“重磅消息”。在近日发送的宣传邮件中,微软表示,将在 TGA 中发布“重大公告和更多你不想错过的...
日期:11-29
雷军回应小米没有核心技术 与世界顶级科技公司比还有一段距离_雷军小米三大技术
据11月29日报道,小米创始人雷军在第九届校友珞珈论坛上发表演讲,他说,很多人对小米存在很多误区,经常听到有人说,“小米只是个组装商,小米的研发投入低,小米没有自己的核心技术。”...
日期:11-30
韩国 SK 同意向 LG 支付 117 亿元赔偿金,两年电池商业秘密纠纷画上句号
  北京时间 4 月 11 日下午消息,据韩联社报道,韩国动力电池制造商 LG 能源解决方案(以下称 LG)和能源化工企业 SK 创新(以下称 SK)11 日就 SK 向 LG 支付 2 万亿韩元(约合...
日期:08-06
仲量联行受邀参加RICS中国峰会,宣布旗下臻量即将登场!_仲量联行CEO
  近日,RICS中国峰会在上海举行,本次RICS峰会的主题为“创新格局下的基础设施建设与城市服务”,值得关注的是,仲量联行评估咨询服务部资深董事韩晶受邀作为峰会嘉宾及分论坛...
日期:10-18
快递点老板跑路留下满屋空包裹 网友:这么看还是快递柜靠谱
1月5日 消息:现在大家网购,除了京东顺丰,快递员一般是不送上门的,快递基本都是放在快递站点,也有少部分会放在快递柜。据西部决策报道,1月3日,广东深圳,网传一快递站老板将客户的包...
日期:01-05
麻省理工学院教授称人类面临人工智能逐底竞争的风险_美国麻省理工人工智能实验室
10 月 27 日消息:麻省理工学院(MIT)的物理和人工智能研究教授 Max Tegmark 最近表示,少数科技公司通过无节制的 AI 开发正在危害人类的未来,并呼吁停止这种逐底(ace to the botto...
日期:10-27
腾讯牌面!周杰伦刘畊宏共同为《元梦之星》写歌
快科技1月12日消息,今天,腾讯旗下游戏《元梦之星》官方宣布,周杰伦、刘畊宏和罗文裕共同创作的游戏满月主题曲《星动力》正式上线。《星动力》这首歌曲,由刘畊宏演唱,周杰伦作曲,...
日期:01-13
微博成央视兔年春晚短视频内容合作伙伴 全民共创聊春晚_微博是春晚合作伙伴
  1月17日,微博宣布成为2023年中央广播电视总台春节联欢晚会官方短视频内容合作伙伴,微博与央视春晚的深度合作也正式迈入了第九个年头。  九年间,在微博聊春晚、看舞台、...
日期:01-17
美女机器人带动共享飞机突破?6分钟销8亿得益科技加持
  新年伊始,“机器人女主播卖飞机”新闻袭来,令人想到此前的“薇娅直播卖火箭”,不过两者最大的区别,是前者是真正卖的是自家的产品,而且直接就能交付,比起后者的卖火箭只是噱...
日期:07-10
iPhone 15两大绝招背刺iPhone14Pro「iphone14 敲击背面」
iPhone14因为升级不明显和售价导致销量不如预期,新的爆料显示,苹果明年将推出无实体按键的iPhone,iPhone15 Pro系列大概率采用实体触控按键。威马汽车w6卖了多少台爱回收服务站...
日期:12-04