您的位置:首页 > 互联网

大模型引发“暴力计算”,巨头加速推进液冷“降温”_icepak液冷模型

发布时间:2023-10-16 10:08:54  来源:互联网     背景:

声明:本文来自于微信公众号光锥智能(ID:guangzhui-tech),文|姚 悦,编|王一粟,授权转载发布。

雷军 小米11

一进入部署了液冷服务器的数据中心,不仅没有嘈杂的风扇声,甚至在不开空调的夏日也完全没有闷热感。

在大模型引发“暴力计算”的热潮下,数据中心的上下游,正在加紧推进液冷“降温”。

半年来,服务器厂商在液冷产品上纷纷推出新的解决方案。比如,中兴通讯的新G5系列服务器,支持不同的冷板式液冷方案,从CPU液冷到内存条散热+VR液冷;联想升级海神温水水冷系统,可实现服务器全水冷无风扇设计;新华三也发布全栈液冷解决方案,包含G6系列服务器、核心路由器、接入交换机;中科曙光子公司曙光数创8月发布了“冷平衡”战略,是特别针对数据中心算力、成本、能耗三元平衡问题,推出的全栈液冷数据中心技术与全生命周期一站式服务;去年年底华为推出全场景液冷“天成”多样性算力平台。今年,华为昇腾再推集成天成液冷的算力集群,可以支持万卡规模。

“在‘东数西算’‘双碳’大背景下,不断提升的功率密度和PUE(能效指标,越接近1越优)设计要求已成为行业面临的主要问题,液冷技术具有高密低碳等优势,已经成为应对数据中心散热压力和节能挑战的必由之路。”中兴通讯数据中心产品线规划总工翁建刚表示。

而就在去年,面对液冷,当上游设备厂商活跃时,中游的数据中心还顾虑重重,保持观望。但现在,像企商在线这样的中游企业也已经积极规划液冷设施,足见液冷已经成为行业共识。

企商在线IDC能力中心售前经理徐涛对光锥智能表示,公司已经在接管客户的一些AI业务,AI服务器的功耗是通用服务器功耗的十倍左右,风冷的局限性日渐明显,必须尝试液冷。

服务器厂商的积极布局,很大程度上来源于客户的需求逐渐明朗。

数据中心占有半壁江山的三大电信运营商在6月亲自下场,联合发布《白皮书》,提出“三年景愿”:即2023年开展液冷技术验证;2024年开展规模测试,新建数据中心项目10%规模试点应用液冷技术,推进产业生态成熟;2025年及以后开展规模应用,50%以上数据中心项目应用液冷技术。

“现在液冷基本上所有内容已经通过验证,进入一个规模扩张的阶段。”近期,工信部直属研究机构赛迪顾问的液冷领域分析师袁钰明确当前液冷所处阶段。

其实,液冷并不是新技术,其早已被应用于工业、航空领域。一说,阿波罗登月计划,就将液冷用于宇航员体温控制。在数据中心领域,液冷在上世纪60-90年代就崭露头角。但后来随着计算技术迭代功耗下跌,又被“冷落”。

从被“冷落”到“翻红”,液冷经历了什么,又将面对什么新挑战?

“暴力计算”亟需液冷降温

风冷是过去很长时间内,数据中心的主流温控方案,以空气为冷却媒介。液冷和风冷最大的区别,就是冷却媒介不同,“液冷”利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,通过热交换将服务器的热量排出。完全绝缘、无腐蚀性的冷液,单位体积价格堪比茅台、五粮液。

液冷之所以被数据中心重新重视,根本原因是,后摩尔定律时代,芯片、服务器的功耗再呈上升趋势,随之产生更高的温度。

“那一次更让我深刻理解了温度对于服务器的影响。”有着十余年IDC售前经验的徐涛回忆从业过程中遇到的设备散热对服务器运行影响的问题,“客户规划的服务器功耗100多瓦,实际装的300多瓦,而且单机柜实际密度也比规划高,结果测出服务器温度到了六七十度,直接导致故障率是原来的10倍。”

图源曙光数创招股书

针对数据中心高温问题,头部设备厂商更加大力推进液冷,目的大多集中在降低PUE,具体则从技术、方案等不同角度着力。

据媒体此前报道,中兴通讯建设的全液冷数据中心项目中,液冷散热的比例已经达到了70%。公司今年1月发布的G5系列服务器新品支持液冷散热技术,采用冷板式液冷散热,可实现数据中心PUE降至1.1,冷板&管路高可靠连接,全管路智能监控,漏液秒级告警。

联想则从液体温度着眼,首创海神温水全水冷技术。不同于常见的45-50摄氏度的技术,联想通过数据分析,认为进水50摄氏度、出水60摄氏度,可以获得最佳能耗比。海神温水全水冷技术实现了服务器全水冷无风扇设计,支持多类型GPU,散热效率达98%,甚至可以支持数据中心PUE降至1.1以下。

后摩尔定律时代,芯片的功率越来越高。尤其是大模型带来的“暴力计算”,例如,用于训练ChatGPT的英伟达 A100服务器的最大功耗已达6.5kW。而此前,传统的服务器功率400W左右已经算很高。

与此同时,AI产业快速发展,致使算力需求飙升。但受制于建设面积等客观因素,增加单机柜功率密度,成为调和快速的算力需求与有限数据中心承载力的共识方案。

手机快充毁不毁电池

服务器功耗越来越大,温度越来越高,所占空间越来越小。可以想象一下,一堆爱出汗的人,挤在狭小的屋子。

越来越高的温度对于服务器来说是非常大的隐患。

“芯片温度每升高10度,故障率就会翻倍,寿命也会减半。”徐涛说,所以散热已经是当前智算面临的最大问题之一。

但是,风冷已经被逼近甚至突破极限。每机柜15-25kW的功率密度是“未使用背板换热器等其他制冷设备”的风冷解决方案上限,仅勉强扛得住2-4个NVIDIA A100。

华为集群计算业务副总裁王振华表示,当芯片的典型功耗超过300W,每平方厘米的功耗超过90W的时候,风冷难以为继。而当前业界的主流芯片产品,功耗已经超过这个阈值。

“机柜密度不断提升,会带来整个制冷系统的造价成本提升。”曙光数创总裁何继盛表示,“甚至单机柜的功率密度达到一定程度,继续增加投资都不能满足数据中心的散热需求。”

另一方面,随着“碳达峰”、“碳中和”等战略落地,国家到地方对于PUE明确的“红线”,成为刺激液冷产业加速更为直接的原因。

4月,多部门发文,2023年6月起数据中心PUE不高于1.4,2025年起数据中心不高于1.3,当前行业平均PUE为1.5。更多的地方政策,则对数据中心提出了更加严格的要求。

相比之下,液冷的单位体积的比热容足有风冷的1000倍以上。(比热容越大的物质,温度每上升1摄氏度,所吸收的热量越多);液冷PUE普遍在1.1,甚至不断逼近1.0。

新华三已经设计了PUE<1.1更节能的数据中心,并获得了金融业数据中心UptimeT4认证。2022年5月,新华三推出UniServer R4900LC G5液冷服务器,支持NVIDIA A10080GB PCIe液冷式GPU,相比于传统风冷机型,整机功耗可降低21.3%,全年PUE均值为1.042。

新华三集团液冷服务器产品经理何伟宇认为,随着产品的快速迭代,单机柜功率密度的持续演进,对于数据中心的散热系统提出了更高的要求,像北上广深等一线城市对于空间和散热的需求则更为严苛,普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进,这在一定程度上也推动了液冷技术在数据中心的发展和普及。

液冷作为更有效解决数据中心高密度散热的新兴技术,已经成为了行业的共识和确定趋势。

“去年被业内称作是数据中心液冷元年,今年已经有越来越多的客户开始接受液冷方案,液冷在整个市场渗透率有望做到20%-30%。”宁畅总裁秦晓宁曾表示。

行业格局来看,海外液冷厂商具有先发优势,中国厂商后来居上实现突围。2015-2018年,中科曙光、华为、联想、阿里巴巴等一众国产厂商,先后实现了液冷服务器大规模商业应用项目的落地,实现弯道超车。

据《中国液冷数据中心发展白皮书》在2020年对于中国液冷数据中心厂商竞争力的研究,基于产品营收、市占率、客户反馈等指标,中科曙光为市场的绝对领导者,华为、阿里巴巴、联想紧随其后。

真我realme15

液冷的“成本账”

“三年前接到调研任务时,液冷还是'黑科技',但现在已经进入了应用拓展阶段。”袁钰近期表示。

液冷“杀回”数据中心,进入拓展期,重要原因之一就是能算得来成本账。

液冷技术按照液体与发热器件的接触方式,可分为“间接接触型”和“直接接触型”两大类。冷板式液冷是最典型的间接接触型液冷技术;直接接触型主要有浸没式液冷和喷淋式液冷两种技术,浸没式液冷最为典型。通俗讲,对应就像人降温措施,冷敷、冷水淋浴或直接泡冷水澡一样。

浸没式和喷淋式液冷技术冷却效果更好,但由于冷板式的服务器芯片等发热器件不用直接接触液体,所以冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强、目前成熟度最高、应用最广泛,最重要的是成本更低。

翁建刚表示,测算来看,功率密度到达一定程度,液冷方案相比风冷已具备经济优势,3年左右能够实现投资收益平衡。不仅如此,随着液冷市场规模的扩大,相关基础设施成本也将进一步降低。

曙光数创副总裁张鹏近期也表示,服务器把散热器去掉,换上冷板,可能成本会有一些上升,但不需要冷机、空调,以及工程上的一些东西,初投资的时候已经省钱。

据招商研报,数据中心TCO(总成本),在不计算服务器折旧与服务器运营成本的情况下,当单机柜功率>15kW时,冷板式液冷TCO优势明显,当单机柜功率>30kW时,浸没式液冷开始出现优势。

icepak液冷模型

此外,无论任何一种液冷路线,相较风冷,都已经在节省电和空间上具备成本优势。

根据开源证券研究所的统计结果,一个数据中心的能耗分布中,散热系统的占比高达40%。也就是说,数据中心每耗费一度电,只有一半用在了“计算”上,其他的则浪费在了散热、照明等方面。计算和散热几乎陷入了一场零和博弈,计算量越大散热消耗的电量越大。

华为昇腾AI计算集群也已经采用液冷散热。液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式,可以降低日常运维的成本。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”北京昇腾人工智能生态创新中心CTO杨光向光锥智能介绍。

阿里云技术专家王鹏曾表示,如果全国的数据中心都采用浸没液冷技术,预计到2025年,一年可节省上千亿度电。

液冷散热效果强大,数据中心不用采用疏密手段。尤其是对于一二线的数据中心来说,液冷的空间成本更突出。

徐涛透露,他们有数据中心,因为接了一些AI业务,原来规划246个机柜,但现在GPU服务器增多,为了避免数据中心温度过高,只能进行疏密,所以一下就砍到了六七十个机柜。但石景山区的数据中心上了液冷设备空间利用率就会大幅提升,同时可以降低数据中心的PUE,降低能耗水平。

“二三线城市的建筑成本为数千元,北京的建筑成本为数万元,空间成本可以说非常高。”徐涛表示,虽然目前液冷单千瓦成本较风冷高,但考虑到空间利用率以及节省的电费,液冷制冷方案,还是值得投入的。

规模扩张还需跨越“百标大战”

虽然已经初步跨过降本这道栏,接下来液冷扩张却还要面临新的问题——“百标大战”。

以冷板式液冷为例,主要包括机柜与服务器,交付方式分为两种,一体化交付与解耦交付。解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,可由不同厂商交付;一体化交付是液冷整机柜(包括机柜和服务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。

液冷产业链尚不成熟,当前业内尚无服务器统一接口标准,各厂商产品及配件设计标准各异。两种交付背后充满了各方博弈。

对于厂商来说,一体化解决方案的成本一定是更低,开发和交付周期大幅缩短。更重要的是,为了形成客户壁垒,厂商也多选择以产品一体化的交付模式为主。这导致各厂商的产品之间兼容性差。

不过,数据中心用户会对一体化交付充满顾虑。

一方面,用户会有迁移需求,比如达成新战略合作,或者原本就是临时租用机柜,以及后续机柜需要扩容等。如果液冷的设施绑定,迁移成本会增加。另一方面,设备与设施绑定,可能会让用户失去议价权。一次性批量采购,设备更新速度快,大概率只能保持固定供应商,如果选择其他产品,还需要对基础设施进行改造。

因此,考虑到用户需求,数据中心不愿意接受一体化方案,就会要求设备厂商解耦。毕竟设备厂商目前还处于充分竞争阶段,厂商也就不得不解耦交付。

当前超聚变、华为、浪潮、曙光、新华三等主要液冷服务器厂商皆拥有自己的一体化交付方案与解耦交付方案。

淘宝收件人手机号如何设置隐私保护

不过,解耦是能解,解耦也可带来供应商多样化,有助于控制成本,能够让各供应商发挥自身优势。但是解耦要求甲方协调各个供应商做好对接,过程就会非常耗时耗力。“每一个环节都得多方密切沟通,也得紧盯落实,一旦出现一点差错,就导致系统性问题。”徐涛说,相对于一体化交付,没有行业标准,解耦就会变成项目制。

各方拉锯中,首当其冲的就会是设备厂商。

曙光数创是国内最早布局液冷的企业,液冷基础设施市占率接近6成。但曙光数创今年年中报显示,冷板液冷数据中心基础设施产品,营收收入同比减少42.55%,营收成本同比减少33.63%,毛利率同比减少11.14%。年报中解释,收入波动的原因是,公司产品是非标准产品,但目前数据中心建设标准各异。

继而,下游会因为种种问题,犹豫尝试液冷方案,导致液冷推广遇阻。

曙光数创也呼吁行业统一标准。张鹏表示,首先如果行业标准对于供水的温度、温差、压力等能够统一,对液冷成本进一步下降是非常有意义的,也是他们在实际落地中遇到的问题。

不过,行业的标准形成并不会一蹴而就。而徐涛认为,各方博弈的滚动过程,行业的发展难免会有波折很有可能“进三步退一步”。当然,这也是新兴技术必然经历的过程。

华为昇腾已经宣布将会发布业界首个万卡级的集群,也将配套液冷方案,使用天成平台采用的“液冷+电源+网络”三条总线的设计思路。

企商在线石景山公共算力中心预计明年8月就交付,虽然还没有行业标准落实,企商在线则选择部分高功耗算力采用液冷方式一体化建设,然后直接租算力给客户。

徐涛表示,后续随着行业发展一定会有新的方案,考虑到芯片功耗越来越高,风冷能力有限,同时“碳达峰”“碳中和”的要求,液冷作为确定趋势,当前先做起来比较重要。


返回网站首页

本文评论
定义嵌入“星”标准 国美独家首发美菱鲜薄系列冰箱新品
  有人说:“生活过得好不好,看一看家里的冰箱就知道了。”冰箱已不仅仅是家庭中一件电器,更承载了人们对于美好生活,厨房空间的向往。一款时尚漂亮的冰箱可以为全家注入...
日期:07-27
字节跳动“心动外卖小程序软件”获得登记批准_字节跳动“心动外卖”小程序软件已获批
  10 月 14 日消息,北京字跳网络技术有限公司“心动外卖小程序软件”获得登记批准,登记号为 2021SR1481161,批准日期为 2021 年 10 月 11 日。   今年 7 月份,报道称,字节...
日期:07-17
快手公司招聘人员「快手快聘“新春招工会”联合多家机构上线近45万个岗位」
2月1日 消息:针对年后用工潮,快手快聘在1月10日至31日期间推出“新春招工会”,联合全国知名的人力资源机构、智能制造企业、服务业企业等上线近45万个岗位,通过近30万场直播开...
日期:02-01
电商平台盯上百亿补贴,低价是永恒的杀手锏?_网购百亿补贴资金从何而来
声明:本文来自于微信公众号 鞭牛士(ID:bianews8),作者:林小白,授权转载发布。电商平台又开始使出低价这一杀手锏,只是这次使出这一杀手锏的是京东。据36氪独家报道,京东将于3月初...
日期:02-25
华为发布会新品曝光 共7款产品 Mate60 RS或压轴亮相_华为发布会6月
华为Mate60系列手机在经过半个月的开售后,终于在9月25日召开了新品发布会。虽然华为并未公布将要发布的新品,但一些博主在网上透露了华为可能在此次发布会上发布的新产品。...
日期:09-17
分析师质疑苹果5G iPhone带来“超级更新周期”,成本提升是阻碍_苹果更新系统支持5g吗
  1月20日消息,据国外媒体报道,分析师和研究机构普遍预计苹果在今年将推出多款5G iPhone,iPhone的销量也会得到提升,苹果股价也因为5G iPhone的消息而明显上涨,自去年秋季的新...
日期:09-15
消息称微软正与人工智能公司OpenAI就新一轮融资进行深入谈判「微软ai开放平台」
10月21日消息,据国外媒体报道,据一位知情人士透露,微软正与人工智能公司OpenAI就新一轮融资进行深入谈判。外媒称,这笔新交易可以帮助微软增加Azure的使用量,这是微软的首要任务...
日期:10-27
又贵又重的折叠机,到底值不值得买?(折叠手机怎么这么贵)
文丨闫妍出品丨网易科技《态℃》栏目组当下,折叠机似乎成为了手机厂商们寒夜里的一线曙光,使得大家一拥而上。上周接连两天,折叠屏手机市场迎来发布高峰,先是三星带来了Galaxy Z...
日期:08-18
解决之道法律风控管理加速企业数字化转型_法律风控体系
(原标题:解决之道法律风控管理加速企业数字化转型) 数字化时代,各行各业都在寻求“新”、“智”的技术支持,加快推进数字化转型...
日期:09-18
9月iOS设备性能榜公布!iPhone 14 Pro 的A16仅拍第四_iphone12和pro性能
中关村在线消息:近日,安兔兔公布了9月iOS设备性能榜公布。第一名:iPadPro5(12.9-inch)8499元起,平均跑分:1251547;第二名:iPadPro5(11-inch)6199元起,平均跑分:1187053;第三名:iP...
日期:10-06
WAPI产业联盟发布团体标准《信息系统无线局域网密码应用基本要求》
通信世界网消息(CWW)日前,WAPI产业联盟(中关村无线网络安全产业联盟)发布了团体标准T/WAPIA 048—2023《信息系统无线局域网密码应用基本要求》。该标准首次明确提出了针对信息系...
日期:06-25
小米购买专利_小米 AR 购物导航专利获授权
  信息显示,2 月 15 日,北京小米移动软件有限公司“基于增强现实技术 AR 的购物导航方法、装置及系统”专利获授权。   企查查专利摘要显示,该方法包括:根据导航路径获取请...
日期:07-17
特斯拉汽车在美国推出 84 个月(7 年)分期「特斯拉在美国价格比中国便宜多少」
IT之家7月22日消息,特斯拉美国官方上线84个月(7年)分期,以 Model Y 为例,首付4500美元,年利率6.39%,相比72个月分期每月支付贷款减少11%。IT之家此前报道,马斯克在财报会议上表示,因...
日期:07-22
华为鸿蒙OS 3 Beta版升级名单公布:新增MatePad、nova系列「华为正式发布鸿蒙OS Beta版」
日前,华为官方公布了一批新的鸿蒙OS 3 Beta版尝鲜机型名单,共新增了7款机型,包括3款平板和4款nova系列手机,分别是MatePad 10.8 英寸、MatePad Pro 10.8英寸、MatePad Pro 5G版...
日期:10-14
配6.1英寸刘海屏!iPhone SE 4曝光「苹果se刘海屏」
据Macrumors报道,根据显示器供应链顾问(DSCC)分析师Ross Young的说法,第四代iPhone SE将配备6.1英寸LCD显示屏,并在显示屏顶部有一个“刘海”。Ross Young表示,他已经修改了对第四...
日期:10-18
Netflix上市_Netflix CEO拟通过独家内容东山再起
  北京时间10月25日晚间消息,美国视频租赁服务商Netflix CEO里德·哈斯廷斯(Reed Hastings)周一表示,要为用户提供独家、有价值的内容,以此重振公司业务。   哈斯廷斯周一...
日期:07-24
幻景游戏配置要求公布-最高6GB显存 刺客信条
来源:中关村在线近日,育碧公布了其新作《刺客信条:幻景》的游戏配置要求。育碧确认,该游戏将支持英伟达的DLSS、AMD的FSR和英特尔的XeSS采样技术。据推文,当采用英伟达RTX 4070 T...
日期:09-24
头条寻人志愿者刘德文:背200坛骨灰回大陆的人
  5年1842天,头条寻人已经帮助15346个走失者回家。   每一个走失者背后,都是一个故事。他们可能是阿尔茨海默症老人,是负气离家出走的孩子,也可能是因为各种历史缘由埋骨...
日期:07-16
vivos1感光设置「搭载智慧柔光环+超感知色彩传感器 「vivo」-S17系列带来影像新突破」
据此前官方确认,全新的vivo S17系列将于5月31日也就是明天14:30正式与大家见面,将继续主打柔光人像。随着发布会进入最后的倒计时,官方关于该机的预热也更加密集。现在有最新消...
日期:09-16
市监总局将加强互联网广告监管 加大互联网广告乱象清理整治力度
6月19日 消息:日前,市场监管总局办公厅印发《市场监管总局办公厅关于扎实做好广告监管领域行风突出问题排查治理工作的通知》(以下简称《通知》),进一步加强对广告监管领域行风...
日期:06-19