把价值百万的芯片泡进特殊“水”里,是数据中心应对AI算力爆发式增长带来的散热和能耗瓶颈的必然选择。浸没式液冷技术通过高效散热和显著节能,正从科幻走向现实,成为支撑未来算力发展的关键基础设施。 ## 1. 传统风冷的困境与算力瓶颈 - 当前AI芯片单卡功耗已突破1000瓦,导致单机柜功耗轻松超过30千瓦,并正向100千瓦迈进。 - 传统风冷技术因空气比热容低、导热能力差,在30千瓦以上功耗时触及物理天花板,导致芯片过热降频,且数据中心PUE指标普遍在1.4-1.6之间,能耗巨大。 ## 2. 液冷技术的三种路径与效率跃升 - **冷板式液冷**作为过渡方案,通过金属冷板间接导热,改造成本低,但散热效率存在上限,机柜内易“冷热不均”。 - **喷淋式液冷**将冷却液直接喷洒在芯片上,效率更高,但系统复杂,工程难题尚待攻克。 - **浸没式液冷**将整台服务器浸入特殊液体,导热能力是空气的25倍,散热能力是风冷的数倍至十几倍,并能实现静音、无尘运行。 ## 3. 核心技术:电子氟化液的安全与挑战 - 电子氟化液具备不导电、不腐蚀、不挥发(沸点110℃以上)三大特性,确保服务器可长期安全浸泡。 - 工程挑战在于高标准的密封要求、复杂的维护流程(需排液操作)以及高昂的初期投入(比风冷高约20%),但长期电费节省可在大约4年内回本。 ## 4. 规模化落地的三大驱动力 - **GPU功耗激增**:单机柜功耗向100千瓦迈进,使浸没式液冷从“先进技术”变为“唯一选择”。 - **应用场景分化**:AI训练集群需要稳定高效的浸没式冷却,而推理任务则可能采用更灵活的冷板或风冷,未来数据中心将是混合架构。 - **国产算力崛起**:国产芯片的大规模部署,其多样性使得“液体包裹一切”的浸没式液冷成为适配多元芯片架构的最优解。 ## 5. 深层意义:算力与能源的博弈 - 浸没式液冷将PUE从1.2降至1.07,放大到百万千瓦级算力集群,每年节省的电量相当于一座小型水电站的发电量。 - 散热效率直接关乎能源效率和碳排放,在“双碳”目标下,这项技术优化是应对AI时代巨大能耗挑战的关键一步。
2026-04-24 20:46

把价值百万的芯片泡进“水”里,中国算力在急什么?

本文来自微信公众号: 科工力量 ,作者:石燕红,编辑:张旻


电影《流浪地球2》中有一幕令人印象深刻:一排排根服务器浸没在海水里,仿佛在“烧开水”。


观众不禁会问:这样不会短路吗?泡在水里还能正常工作?


实际上,这种让服务器“泡水”的设定,如今已不再是科幻。现实中早已有成熟的技术方案——浸没式液冷。


在甘肃庆阳的一个数据中心展厅里,我们亲眼见到了这样一组“泡在水里”的服务器。当然,这里的“水”需要打上引号。它不是普通的水,而是一种特殊的冷却液——电子氟化液。


这种液体无色、无味,且不导电。工作人员介绍,他们曾测算过,即便将一部手机丢进氟化液里浸泡10年,取出来之后依然可以正常使用。


本文从氟化液出发,探讨一个关键问题:为什么全国的数据中心不约而同地想将算力服务器“泡进水里”?为了实现这一目标,工程师们又攻克了哪些技术难题?


传统散热的困境:风扇的“天花板”


要理解液冷为何在当前变得如此重要,首先需要回到一个最基本的物理问题:芯片产生的热量,到底有多大?


十年前,一台服务器中单颗CPU的功耗大约为几十瓦,用一块铝制散热片加一个小型风扇就能轻松压制。但如今,训练AI大模型所用的GPU,单卡功耗已飙升至700瓦,甚至超过1000瓦。当一台机柜中塞进数十张这样的计算卡时,整柜功耗可以轻松突破30千瓦、50千瓦,并正向100千瓦迈进。


而在一个大型数据中心里,这样的机柜往往成千上万。


传统的散热方式是用风扇将冷空气吹入服务器带走热量,再通过中央空调对热空气进行冷却。这套方案在数据中心领域统治多年,但它存在一个硬性的物理天花板。


空气的比热容低,导热能力也差。当单机柜功耗超过30千瓦,即便将风扇转速拉到极限、空调开到最大,热量仍会在机柜内部堆积,导致芯片因过热而降频,甚至触发保护性宕机。


更棘手的是能耗问题。数据中心有一个核心指标——PUE(电源使用效率),即数据中心总耗电量与IT设备本身耗电量的比值。理想状态下PUE为1.0,意味着所有电力都用于计算。但在现实中,风冷数据中心需要将大量电力用于空调和风扇,PUE普遍在1.4到1.6之间,表现较好的能做到1.2左右。


全球数据中心每年消耗的电力已占人类总用电量的约2%。国际能源署预测,到2030年,这一比例将翻倍。如果继续依靠风冷来支撑未来的AI算力,我们或许不是在训练模型,而是在为整个电网的空调系统“打工”。


散热,已经从运维层面的问题,上升为制约算力发展的关键瓶颈之一。


液冷技术接棒:三种主流方案


当风冷技术触及天花板,全球工程师的目光纷纷投向液冷技术。液冷并非单一技术,而是包含多种方案的技术谱系。当前主流的实现方式主要分为三类。


第一类:冷板式液冷


这是目前最成熟的过渡方案。工程师在CPU、GPU等“发热大户”表面贴上一块金属冷板,内部设有细密的液冷管道,冷却液在管道中流动,通过金属将热量导出。



经常玩游戏的读者可能听说过“水冷机箱”,其原理与此类似。


由于冷却液不直接接触芯片,安全性相对较高,改造成本也较低,因此许多传统数据中心在向液冷过渡时,会优先采用冷板方案。


但它的散热效率存在上限——热量传递需经过一层金属,且机柜中除CPU/GPU外,内存、硬盘、电源等部件仍依赖风冷散热,容易造成“冷热不均”的问题。


第二类:喷淋式液冷


这种方案更为激进。它通过喷头将冷却液直接喷洒在发热元件表面,利用液体蒸发带走热量。相比冷板式,喷淋式的散热效率更高,但系统结构更加复杂。喷头堵塞、液体分布不均等工程难题仍需攻克,目前应用范围相对较窄。


第三类:浸没式液冷


这正是在庆阳数据中心所见的技术。它将整台服务器乃至整台机柜完全浸没在特殊液体中,使液体与每一个电子元件直接接触,通过热传导和热对流带走热量。


这是当前数据中心散热效率的最优形态:液体的导热能力是空气的25倍,单位体积液体能带走的热量更是空气的近千倍,这使得浸没式液冷的单机柜散热能力达到风冷的数倍甚至十几倍。同时,浸没式方案可以均匀带走所有部件的热量,没有死角。由于不需要风扇,整个系统几乎是静音运行,也彻底摆脱了灰尘的困扰。


技术路线的选择并非“非此即彼”,而是根据不同功耗密度选取最优方案。目前庆阳数据中心给出的参考是:30千瓦以下,风冷依然够用;30千瓦到50千瓦,冷板式是性价比最高的过渡方案;50千瓦以上,尤其是未来100千瓦级的超密集集群,浸没式液冷将成为刚需。这三种方案将在未来长期共存,而非简单的谁取代谁。


氟化液的优势与工程挑战


回答了“为什么要采用浸没式液冷”之后,接下来的核心问题是:如何安全地实现这一方案?


数据中心连接着互联网、人工智能、智能驾驶等众多关键领域。一旦芯片完全浸没在液体中,只要该液体具备微弱的导电性、腐蚀性或挥发性,整个机房都可能报废,相关服务将全面停摆,影响是毁灭性的。因此,无论采用何种散热方式,安全始终是首要考量。


为了找到一种既能高效导热、又能与电子设备“和平共处”的液体,工程师们已探索多年。


最初,人们尝试使用矿物油或变压器油进行散热,即所谓的“油冷”。这类油品虽具有绝缘性,但黏度大、散热效率低,长期使用后会氧化变质,需要定期更换和清理,维护成本较高。后来的硅油性能有所改善,但仍停留在“能用”而非“好用”的阶段。


目前行业较成熟的解决方案之一,是电子氟化液。


这种无色无味的人工合成有机化合物,从现有测试数据来看,具备三个突出特性:


第一,不导电。它的电阻率极高,即使服务器在通电状态下完全浸泡其中,也不会发生短路。


第二,不腐蚀。服务器内部材料极为复杂,包括铜电路、金触点、银焊点、铝散热片、塑料框架、橡胶密封圈等。氟化液必须对所有这些材料保持化学惰性。研发团队为此经历了多次迭代:早期配方解决了金属腐蚀问题,却发现长期浸泡会导致塑料件微量溶胀;后续持续攻关时,又面临高温下挥发损耗的挑战。直到当前这一代产品,厂家通过耐久性测试证实,设备在氟化液中浸泡10年后拆解,内部元器件依然完好如初,相关特性也已通过工信部验收。


第三,不挥发。氟化液的沸点在110摄氏度以上,而服务器正常工作温度约七八十摄氏度。这意味着在常规运行中,液体几乎没有损耗,无需频繁补充。


即便如此,氟化液仍面临工程层面的重大挑战。


首先是密封。整个槽体必须完全密闭,液体循环管道、电源线、网线、光纤的穿舱位置均需做特殊密封处理。一旦漏液,不仅会造成昂贵损失,还可能污染其他设备。


其次是维护。传统服务器发生故障时,工程师打开机柜即可更换部件。而对于浸没式液冷服务器,维护需要先排液、再操作,流程复杂得多。此外,并非所有硬件都适合液体环境,部分类型的硬盘、光模块对液体敏感,需要重新设计。


最后是成本。电子氟化液本身价格不菲,再加上专用槽体、循环泵、热交换器等配套设备,初期投入比风冷系统高出约20%。不过从长远来看,节省的电费可以收回这部分成本——以中国移动庆阳数据中心的测算为例,使用其浸没式方案,大约4年即可回本。但首次投入的高门槛确实劝退了不少企业。


为什么是现在?——三大驱动力


浸没式液冷的概念并不新鲜,早在十几年前就有实验室在探索。那么,为什么直到最近才开始规模化落地?


驱动力一:GPU功耗曲线将风冷逼至绝境。


英伟达最新的AI芯片,单卡功耗已突破1000瓦。若一个机柜塞满64张或128张卡,整机柜功耗轻松超过50千瓦,甚至向100千瓦、130千瓦迈进。国产芯片也在快速迭代。风冷在这种密度下已完全失效,冷板式液冷也开始力不从心。浸没式液冷由此从“先进技术”变为“唯一选择”。


驱动力二:应用场景的分化。


AI算力分为训练和推理两大场景。训练大模型时,GPU需要持续满负荷运行数周甚至数月,热量输出稳定且巨大,此时浸没式液冷的稳定散热和节能优势非常明显。而推理任务不同,用户调用AI时,算力需求是脉冲式的,负载忽高忽低,风冷或冷板式在此类波动场景下反而更灵活、更经济。因此,未来的数据中心不会是“全场液冷”,而是采用混合架构:训练集群用浸没式液冷,推理集群用冷板式液冷或风冷,根据业务特性动态配置。


驱动力三:国产算力的崛起。


过去,液冷主要配合英伟达GPU的生态。而如今,华为昇腾、海光、寒武纪、燧原等国产芯片已大规模部署。这些芯片的功耗特性和封装形式与英伟达存在差异,对散热方案提出了新要求。浸没式液冷凭借“液体包裹一切”的通用性,反而成为适配多元芯片架构的最优解。这也是庆阳这类国产算力枢纽率先布局浸没式液冷的重要原因。


液冷背后:一场算力与能源的博弈


聊完技术,我们最后谈谈这件事的深层意义。


人类进入AI时代,上层是算法、模型与芯片的竞争,而底层则是能源的竞争。


训练一次GPT-4级别的大模型,耗电量相当于3万个家庭一年的用电量。全球数据中心的耗电量正以每年超过10%的速度增长。如果不改变散热方式,未来我们可能面临“算得起,但供不起电”的尴尬局面。


浸没式液冷将PUE从1.2降低到1.07,看似只是0.13的微小改进,但放大到百万千瓦级的算力集群,这意味着每年节省的电量相当于一座小型水电站的发电量,甚至更多。在“双碳”目标和全球能源紧张的背景下,散热效率就是能源效率,PUE就是碳排放。


在中国移动庆阳智算中心,浸没式液冷已经从展厅测试走向机房部署。这里全年较低的气温、每度3毛8的绿电,以及正在建设的液冷集群,共同构成了目前国内最接近规模化落地的现实样本。



但液冷不是终点。当单机柜功耗向100千瓦、200千瓦继续攀升,今天的氟化液也会遇到新的瓶颈。下一代散热技术会是什么?相变材料?超导热管?还是直接把数据中心建到深海或极地?


没有人知道确切答案。但可以确定的是,只要人类仍在追求更强的算力,散热技术的进化就不会停止。因为物理定律从不妥协,工程师能做的,只是在极限边缘,寻找那0.1的优化空间。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定