智算中心液冷技术选型指南：浸没式vs冷板式

　　随着大模型训练和推理集群持续扩容，智算中心散热问题已经从“机房降温”升级为“机架级热管理”。美国能源部在2024年数据中心设计指南中把冷板和浸没式都归为直接液冷技术，并指出高性能计算数据中心一直是液冷的早期采用者，计算机架功率密度已从早年的60kW级走向125kW以上。与此同时，NVIDIA面向DGX GB200的最新参考架构也明确采用“直接液冷+风冷”的混合方案来管理高密度AI机架热负荷。这说明，在智算中心场景里，液冷已不再是概念验证，而是在高密度算力建设中加速走向主流。　　从技术定义看，冷板式液冷的核心逻辑，是把传统芯片散热器替换为带液体流道的冷板，让冷却液直接在CPU、GPU、内存等高热器件附近带走热量；浸没式则是把整机电子部件直接置于不导电的介电液中散热，其中又分为单相浸没和双相浸没两类。Dell对两者的概括也很直接：冷板式是“贴着热源冷却”，浸没式则是“把服务器整体浸入液体中冷却”。两种路线本质上都服务于更高热密度，但工程实现方式完全不同。　　从行业采用情况看，当前市场显然更偏向冷板式。Uptime Institute在2024年调查中显示，22%的受访机构已经在数据中心使用直接液冷，另有61%虽然尚未使用，但愿意考虑导入；在已经部署直接液冷的用户中，水冷冷板和介电液冷板的使用比例分别达到64%和30%，而单相全浸没、双相全浸没和部分浸没的占比则分别为26%、10%和13%。换句话说，浸没式热度很高，但在现实落地层面，冷板式仍是更主流的实施路径。　　冷板式之所以成为多数智算中心的优先解，关键在于它更像一条“演进路线”而不是“重构路线”。Open Compute Project指出，直接到芯片的冷板方案可以在不对硬件架构做激进改造的前提下落地，只需把原有风冷散热器替换为冷板，并配合CDU、软管和接头等基础设施即可。同时，冷板式还便于采用混合散热，让最热的CPU、GPU走液冷，其他器件继续走风冷，这对存量机房改造、标准机柜兼容和交付节奏都更友好。NVIDIA最新DGX GB200机架方案，本质上也是这种“关键热源液冷、其他部件风冷”的工程思路。　　浸没式的优势，则体现在更彻底的热管理能力上。ASHRAE认为，浸没式具备更宽的温度适应性、更高的热量捕获能力、更高的部署密度以及更灵活的硬件与部署选择。Dell也指出，浸没式通常可以取消服务器内部风扇，并把几乎全部计算热量直接收集到液体中，从而减少机房送风和部分压缩机制冷需求。对于追求极限密度、希望尽量摆脱传统冷通道和风道设计束缚的AI训练集群、HPC或特定边缘场景而言，浸没式确实有很强吸引力。　　但两种路线各有代价。冷板式虽然更容易落地，却往往仍是“混合散热”体系，部分余热仍要依赖空气处理，系统里也需要持续管理CDU、管路、接头和冷却液风险。浸没式则往往意味着更高的前期投入和更深的系统改造。OCP明确指出，浸没式通常需要更激进的设计变化和更高的初始投资，还要考虑系统重量、形态和可维护性；ASHRAE也提醒，浸没式在设备抽拉检修、液体密封、材料兼容性以及保修影响上都更复杂。因此，浸没式不是“更先进就一定更好”，而是“性能更强，但组织和运维门槛也更高”。　　如果把视角放到能效和可持续性，两条路线都比传统纯风冷更有潜力。美国能源部指出，直接液冷能够用更高温度的冷冻水供水，并减少数据中心风机规模和能耗；更高的ASHRAE水温等级还可能支持干冷器散热，进一步节水。ASHRAE也提到，液冷方案有望把PUE压到1.1以下，温水冷却还能减少甚至取消冷机。NVIDIA在2025年的公开表述中同样强调，液冷使AI基础设施可以在更高水温下运行，从而在很多气候条件下减少甚至取消机械冷机依赖。也正因为如此，液冷之争本质上不仅是散热技术之争，更是能效、交付和TCO的综合选择。　　综合现阶段产业成熟度和工程现实来看，绝大多数新建或改造中的智算中心，冷板式会是更稳妥的主流答案：它更适合追求标准化交付、兼容现有机柜体系、希望分阶段升级液冷能力的项目。浸没式则更适合那些从一开始就瞄准超高密度、愿意重构服务器形态和运维体系、并把极致能效与热量捕获作为核心目标的场景。简单说，冷板式更像“可快速规模化落地的现实解”，浸没式更像“面向极限密度和长期效率的定制解”。对智算中心来说，真正的选型逻辑从来不是二选一，而是围绕机架功率、建设周期、存量条件、运维能力和投资回报周期做最合适的平衡。

智算中心液冷技术选型指南：浸没式vs冷板式

相关推荐

算力百问 | 什么是Token？大模型的Token到底怎么算钱？

咨询服务

智算中心液冷技术选型指南：浸没式vs冷板式

智算中心液冷技术选型指南：浸没式vs冷板式

相关推荐

算力百问 | 什么是Token？大模型的Token到底怎么算钱？

咨询服务

免费咨询