首页 新闻品牌正文

告别冷水机,数据中心迈入液冷时代

Andy730 发表于: 来自:暖通家

  结论:下一代数据中心正进入以“去冷水机、高水温、直连芯片”为特征的高效计算时代,这不仅是能效和碳减排的飞跃,更是算力基础设施的一次结构性重构。

  

  1. 物理极限倒逼技术范式转移

  

  功耗红线:AI芯片(如NVIDIA GB300系列)的TDP已跨越1200W-2700W区间,远超风冷技术约700W的物理处理极限。

  

  范式更迭:数据中心正在经历从“冷却空气”到“冷却芯片”的根本转变。传统风冷系统由于热容低、热阻大,已无法满足单机架100kW-200kW以上的超高密度算力集群。

  

  2. “温水液冷”时代的去冷水机化趋势

  

  能效革命:依靠高耗能压缩机循环的冷水机(Chiller)正被剔除,转而采用出水温度可达45°C以上的“高温液冷”。

  

  自然冷却:由于冷却液温度高于大多数地区环境温度,系统可实现完全自然冷却。数据中心PUE有望从传统的1.5以上剧降至1.02-1.1的理论极限值。

  

  逻辑重塑:冷却需求并未消失,而是从“集中式制冷”转化为“分布式热交换”。原由冷水机承担的资本开支正被转移至冷板(Cold Plate)、歧管(Manifold)及冷却分配单元(CDU)等精密组件中。

  

  3. 主流技术路线的优劣与商业轨迹

  

  冷板式液冷(主流):凭借对既有服务器架构极高的兼容性、低技术门槛和良好的集成度,已成为2025-2026年AI基础设施部署的首选方案。未来趋势是微通道冷板(MCCP)及芯片级液冷封装。

  

  浸没式液冷(补充):虽具备极致的热管理效率和无风扇优势,但受限于昂贵的介电液体成本、运维复杂性(维护服务器需起重设备)以及行业标准缺失,短期内仍维持在特定小众市场或试点规模。

  

  风冷(边缘化):逐步从主角退化为辅助角色,仅用于处理数据中心内的低功耗辅助设备。

  

  4. 资本分配与供应链的结构性变迁

  

  成本构成:在现代AI数据中心建设中,电力与冷却系统的成本占比高达30%,已超过IT服务器设备(28%)。散热与电力供应已取代算力,成为制约AI扩张的新“瓶颈”。

  

  市场红利:冷却行业的产值正在向具备冷板定制化能力、高可靠性快速断开接头(QD)及系统级设计集成能力的厂商聚集。预计2026年全球液冷市场将迎来爆发,每机架的热管理组件价值量提升将超过50%。

  

  [正文内容]

  

数据中心冷却革命深度探析:从冷水机到液冷 

行业背景与趋势:高功率AI时代驱动的冷却创新

  

  AI服务器和高性能计算(HPC)的快速兴起,已将数据中心冷却需求推向空前高度。最新一代AI芯片,例如NVIDIA的H100和Grace Hopper,其热设计功耗(TDP)往往达到数千瓦,远超传统风冷系统有效处理的范围。例如,NVIDIA的GB200和GB300芯片的TDP范围为1200W至2700W,显著超过风冷约700W的物理极限。随着热密度以指数级速度持续增加,依靠风扇驱动空气对流的服务器冷却方法正逐步接近极限。简而言之,高功率AI芯片正在引发数据中心冷却技术的新一轮变革,使传统风冷架构难以为继,液冷已成为高功率服务器的必然选择。

  

  与此同时,整体能耗和碳排放带来的压力,正迫使数据中心重新思考冷却策略。传统数据中心长期依赖冷水机结合计算机房空调系统(CRAC),将冷冻水温度降至约7至12°C以冷却机房空气。然而,冷水机本质上是大型空调压缩机,能耗极高。它们不仅是数据中心最大的耗电设备之一,也是电能使用效率(PUE)难以降低的主因。基于冷水机的传统数据中心PUE通常在1.5至2.0左右,这意味着大量电力被冷却基础设施消耗,而非用于IT设备本身。在全球碳中和目标和运营成本上升的双重压力下,降低冷却能耗已成为行业共识。因此,下一代数据中心正越来越多地尝试彻底取消冷水机,转而采用更高温度的冷却水结合液冷技术,以实现显著的效率提升。

  

  传统数据中心常用的基于冷水机的冷却架构

  

  冷水机依靠压缩机驱动的制冷循环强制降低水温,随后空调系统将冷却后的空气分配至整个机房以带走热量。在此架构下,冷却系统往往成为仅次于IT设备的第二大耗电主体,导致整体能耗长期居高不下。

  

  相比之下,液冷数据中心可完全取消传统冷水机,转而采用双回路液冷架构。在此设计中,内部冷却液回路直接从服务器组件带走热量,并通过机架级或列级冷却分配单元(CDU)传递至外部回路,再由室外冷却塔或干式冷却器散热。由于液冷系统允许服务器出水温度达到约45°C甚至更高,远高于大多数地区的环境温度,因此可实现自然冷却,利用环境空气散热,而无需依赖高能耗的压缩制冷设备。

  

  这种高温液冷范式被NVIDIA首席执行官Jensen Huang在今年的CES上描述为“用温水冷却服务器”的革命性转变。Jensen Huang指出,未来45°C的温水就足以冷却工作温度超过80°C的芯片,从而取消冷水机,用温水实现超级计算机规模的冷却。这一言论最初引发市场误解,认为“冷却需求将消失”,导致液冷相关股票短期抛售。实际情况恰恰相反:取消冷水机并未降低冷却需求,而是代表向以液冷为核心的架构进行的结构性转型。

  

  随着基于压缩的制冷设备退出,之前由冷水机承担的热负载现在全部由液冷系统吸收和传输。因此,液冷基础设施的体量、重要性和战略价值持续上升而非下降。

  

  总体而言,AI驱动的计算密度提升和能效要求正加速液冷在数据中心的采用。AWS、Google和meta等超大规模云服务商已开始部署自研AI芯片,并配套专用液冷基础设施,以提高计算密度并降低能耗。行业分析师预计,AI数据中心的液冷渗透率到2025年将达到33%,并在2026年迅速成为主流解决方案。

  

  展望未来,当单机架IT负载常规超过100-200kW,例如NVIDIA最新的Vera Rubin机架,其热输出超过200kW,液冷系统已成为不可或缺的核心基础设施,而非可选的增强方案。更引人注目的是能效影响:取消冷水机后,下一代液冷数据中心的PUE可从传统风冷设施的1.5以上降至约1.1,在高度优化条件下甚至接近1.05乃至低至1.02。此时,电力消耗主要限于循环泵和少量辅助风扇。

  

  这代表了能效和碳减排的巨大飞跃,与长期可持续发展目标高度契合。同时也强化了一个关键结论:冷却需求并未下降,反而正在增加。改变的是冷却方法,即从高耗电的空调系统转向高效的液冷架构。行业正进入以高温液冷为主导的高效计算时代。

  

  技术路线图:空气冷却、基于冷水机的系统与液冷解决方案的比较

  

  数据中心冷却技术正经历代际转型。从技术路线图角度看,我们将传统空气冷却(包括基于冷水机的系统)与两种主要液冷方案——浸没式冷却和直连芯片冷板液冷进行对比,分析各自的优势、局限、适用场景、技术瓶颈以及未来投资轨迹。

  

  传统空气冷却(包括基于冷水机的系统)

  

  架构与特点

  

  传统空气冷却数十年来一直是数据中心的主导冷却架构。它主要依靠服务器风扇排出热空气,同时通过计算机房空调系统(CRAC)结合冷水机来冷却周边环境。简单来说,即利用冷空气流经服务器以带走热量。

  

  大规模数据中心通常部署冷水机,向空气处理单元供应7至12°C的冷冻水,使服务器进风温度维持在可接受范围(例如OCP定义的W17或W27类别)。这一架构的优势在于技术成熟、基础设施和运维人员广泛熟悉,且服务器端的改造需求极小。对于中低功率密度机架,空气冷却仍具成本效益,且维护相对简便,更换风扇或空调模块也较为直接。

  

  局限与瓶颈

  

  空气冷却性能从根本上受限于空气的低热容量和低导热率。随着芯片功率密度持续上升,空气越来越难以带走足够的热量,尤其是当单个服务器节点功耗超过千瓦级别时。此外,由于空气冷却需要降低整个机房的温度,IT负载增加会导致空调容量不成比例地扩大,从而推高能耗和PUE。冷水机本身能耗极高,使传统架构已接近效率上限。

  

  研究表明,空气冷却的实际极限约为单芯片700W TDP;超过此点后,增加风扇数量带来的收益将显著递减。因此,仅靠空气冷却已无法满足单机架功率常规达数百kW的当代AI集群。核心瓶颈有二:一是无法突破的物理极限,二是完全依赖提升空调功率所带来的经济与环境成本压力。

  

  适用场景与趋势

  

  传统空气冷却仍适用于通用企业数据中心、中低密度IT环境以及对前期资本支出高度敏感的场景。然而,随着AI和高密度计算的普及,空气冷却正稳步让位于液冷方案。许多新建超大规模数据中心现已预装液冷管道或采用液冷就绪(Liquid Cooling Ready)设计,以延长基础设施寿命。

  

  总体而言,空气冷却正处于战略拐点,从主要解决方案转向辅助角色。未来,它可能仅用于辅助低功率设备,而高功率计算负载将越来越多地交给液冷。

  

  浸没式冷却

  

  架构与特点

  

  浸没式冷却通过将整个服务器或电子组件直接浸入专用介电液体中来带走热量。这些液体可以是单相(如矿物油或氟化液)或两相液体(涉及沸腾与冷凝过程)。从热学角度看,液体的热容量远高于空气,能实现更高效的吸热。

  

  浸没式冷却的一大优势是均匀的热管理:不仅CPU和GPU,连电源、内存模块和电压调节模块(VRM)都能得到完全浸没和冷却。这使其特别适合超高功率密度环境。此外,服务器风扇可以取消,从而降低噪音并减少部分功耗。从设施角度看,浸没系统减少了对风道和机架间距的需求,显著提升了空间利用率。

  

  局限与瓶颈

  

  尽管技术吸引力强,浸没式冷却在部署和运维上仍面临重大挑战。首先,介电液体价格昂贵且需要持续维护,必须妥善处理氧化、蒸发和液体劣化等长期问题。其次,服务器厂商对组件在浸没环境下的可靠性存在顾虑,某些橡胶、塑料或连接器材料可能随时间老化,保修责任界定也不明确。

  

  维护复杂性是另一障碍。传统服务器可轻松从机架滑出,而浸没系统需要将服务器从液浴中吊起,并处理液体滴落问题,运维团队面临陡峭的学习曲线。此外,行业缺乏标准化的浸没规范,槽体尺寸和系统设计差异很大,限制了可扩展性。这些因素共同制约了其短期内的大规模采用。

  

  适用场景与趋势

  

  浸没式冷却目前主要应用于小众或试点规模场景。示例包括高频交易、军用和航天电子设备,以及追求极端冷却效率的早期加密货币挖矿集群。部分超大规模云服务商已开展概念验证测试,例如Microsoft曾测试两相浸没以评估效率和组件寿命。某些边缘计算部署或恶劣气候环境也会考虑浸没式冷却。

  

  总体而言,浸没式冷却仍属于非主流选项,在液冷格局中作为补充技术存在。若功率密度超过冷板方案的极限,或者标准与生态系统趋于成熟,其采用范围可能扩大。但在2025-2026年的投资视野内,行业重点仍牢牢锁定在冷板液冷上,因其集成性更优。

  

  直连芯片冷板液

  

  冷架构与特点

  

  冷板液冷是当前数据中心的主流液冷解决方案。它将冷板直接安装在CPU和GPU等高发热组件上,使冷却液流经内部微通道,从源头带走热量。每个主要组件通常覆盖定制设计的冷板,并通过歧管(Manifold)和快速断开接头(QD)负责冷却液的分配与收集。

  

  服务器机架通常配备一个或多个冷却分配单元(CDU),作为热交换与控制枢纽。CDU将内部热水回路连接至外部设施水回路,通过板式热交换器传递热量,并管理流量与温度。

  

  冷板液冷的性能优势显著:直接针对芯片热源,效率比空气对流高出数个数量级,能维持更低的运行温度并确保性能稳定。冷板系统还支持较高的冷却液温度(30-45°C),在大多数气候下可实现自然冷却,从而取消对冷水机的需求。从架构上看,冷板冷却保留了基于机架的服务器形态,便于现有数据中心的平滑采用与混合部署。

  

  局限与瓶颈

  

  尽管相对成熟,冷板液冷仍面临技术挑战。泄漏风险管理至关重要:大量的快速断开接头(QD)和软管增加了泄漏概率,可能导致设备损坏及停机。因此,供应商正大力投入高可靠性连接器、泄漏检测及防护机制的研发。

  

  制造复杂性是另一瓶颈。下一代冷板越来越多地采用微通道设计以提升传热效率。例如NVIDIA即将推出的Vera Rubin系统就集成了微通道冷板(MCCP)用于主要AI芯片冷却。这些先进设计提高了制造难度、成本以及良率风险。

  

  定制化需求也增加了开发工作量,因为每一代新芯片的尺寸和热分布各异,需要与芯片设计师紧密协作。此外,由于需要额外的管道、泵和CDU,其初始部署成本显著高于空气冷却,必须通过规模效应来摊销投资。在运维方面,液冷也引入了新的维护技能和培训要求。

  

  适用场景与趋势

  

  冷板液冷已成为AI训练服务器和超级计算中心的主流选择。NVIDIA最新的HGX H100服务器以及未来的Vera Rubin平台均全面采用液冷,通常会完全取消内部风扇。下一代机架架构,例如NVIDIA宣布的Kyber架构,将进一步提升液冷密度和组件集成度。

  

  超大规模云服务商正将液冷应用从GPU扩展至定制AI ASIC。AWS即将推出的Trainium 3、Google的TPU v6以及meta的MTIA 2均预计采用液冷,以保障运行稳定性和部署密度,即便单芯片TDP低于1000W。因此,液冷正在GPU和ASIC两大生态中快速渗透。

  

  展望2027年,据报道NVIDIA计划引入芯片级液冷解决方案,如微通道盖板(MCL),以应对可能超过3000W的芯片TDP。MCL将微通道冷却直接集成到封装盖板中,缩短热路径并进一步提升效率。虽然仍处于研发和试点生产阶段,但若成功商用,该方案将显著重塑系统设计和组件生态。

  

  Vera Rubin的计算托盘包含1个Vera CPU以及2个Rubin GPU封装(共4个Rubin GPU裸芯)。内部完全采用栅格阵列(LGA)/端子触点搭配印刷电路走线和集成水冷通道,实现了无线缆、无软管且无风扇的设计。

  

  综合来看,液冷的渗透正为整个供应链创造结构性增长机会。特别是具备冷板、快速断开接头(QD)、CDU以及系统级设计集成能力的供应商,预计未来几年的增长率将远高于科技行业平均水平。

  

  例如,AVC预计2026年营收增长将超过30%,这主要得益于GB300订单、NVIDIA全新Vera Rubin平台散热模块的量产爬坡,以及其机箱和机架级集成业务的扩张。

  

  冷水机退出对市场规模的影响

  

  一个关键问题是,冷水机的退出是否会缩小或根本性地改变整个数据中心冷却市场。如前所述,尽管冷水机正逐步退出历史舞台,但这并不意味着总冷却需求在减少。相反,价值正从集中式、大规模制冷设备转向高精度液冷组件的分布式生态系统。

  

  传统冷水机系统具有极高的资本成本和能耗。虽然淘汰冷水机可减少数据中心在暖通空调(HVAC)基础设施上的支出,但这部分预算将重新分配至液冷系统,包括更多的冷板、大幅增加的连接器与管道、更复杂的CDU模块,以及全面的监控维护解决方案。NVIDIA关于未来数据中心不再需要冷水机的论断,反映的是热交换逻辑的根本转变,而非冷却硬件本身的消失。一旦移除基于压缩的制冷设备,原先由冷水机承担的功能将直接由液冷系统接管。

  

  因此,液冷的整体使用量和战略重要性同步提升,商业机会则从传统暖通厂商转移至新一代液冷供应商。实际上,从2026年开始,超大规模云服务商部署的高端机架将几乎全部采用液冷。整体市场规模和每机架热管理价值同步上升。预计全球液冷市场将于2026年进入爆发式增长期,冷板收入同比增速将超过55%,而得益于QD及相关部件使用量的增加,每机架热管理组件价值将提升50%以上。

  

  这意味着,即便没有传统冷水机的销售,液冷设备产生的增量价值也足以抵消并超越其缺口,推动整个冷却行业持续扩张。对于价值链参与者而言,抓住从组件制造到系统级集成的新机会,将决定其长期的竞争地位。

  

  总之,冷水机的退出并未削弱冷却需求。相反,它标志着高温液冷时代的正式到来。那些成功扩大研发投入并实现垂直整合的冷却解决方案供应商,将从这次结构性转型中显著获益。

  

  企业构建数据中心时真正购买的是什么

  

  构建一个设备齐全的数据中心远不止是一项简单的建筑工程,它是一项高度结构化的资本分配活动,涵盖多个保障性能、可用性和可扩展性的技术系统。

  

  在美国,2025年建造并装备一座现代数据中心的典型成本为每平方英尺600-1100美元,高阶AI设施往往超出标准预算。大规模设施的成本范围在2.5亿至5亿美元以上,而较小的企业部署可能在200万至500万美元之间。

  

  以一个代表性的1000万美元数据中心建设为例,拆解物料清单(BOM)后,支出分布如下:

  

  最大份额(30%)用于电力和冷却系统。这些系统是维持运营稳定性的基础,包括电气基础设施、不间断电源(UPS)系统、冷水机和热管理。随着计算密度上升,尤其是在处理AI工作负载时,这一类别的重要性持续提升。

  

  服务器和IT设备占总成本的28%。这一类别构成了设施的计算核心,涵盖处理硬件及相关组件,用于交付实际的工作负载性能。

  

  网络设备占支出的15%。这些系统负责连接数据中心内部服务器,并将设施与外部网络相连。随着数据流量增强和延迟要求收紧,网络的重要性日益凸显。

  

  存储设备占预算的10%,支持主要和次要层级的数据保留、检索与管理。

  

  备份和灾难恢复解决方案占7%,确保在发生故障时具备韧性和业务连续性。

  

  软件占总投资的5%,用于支持数据中心管理、监控、编排和资源优化。

  

  物理基础设施虽然必要,但占比更小:机架和线缆占4%,而远程人工支持服务仅占1%。

  

  值得注意的是,数据中心并非单纯的IT采购,它们是设计用于支撑高密度计算的基础设施系统。近三分之一的支出用于能源和热管理,这凸显了AI时代的一个关键现实:

  

  瓶颈不再仅仅是计算性能,而是电力供应和散热能力。

  

  理解这一成本结构,对于寻求识别下一代数据基础设施价值点与制约因素的投资者、运营商和供应链参与者而言,至关重要。


留下您的信息如果您对该企业或本条内容感兴趣,请留下您的联系方式,将会有专人跟您联系。

    经营类别
    厂家类别
    所属区域
同类文章

分享到微信朋友圈

打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈。

分享文章
公众号
暖通家
小程序
鎏商成长研习社