芯片冷却，涌现大量“黑科技”

2026-07-03 18:09

最近，英伟达在官方博客上宣布了一件事：其下一代AI计算平台Rubin将彻底取消风扇，100%依赖液冷运行。同一个月，韩国科学技术院（KAIST）团队发表论文，展示了一种将室温水直接注入芯片内部微管道的冷却技术，性能系数达到此前世界纪录的10倍。再往前推几天，SK海力士发布了在HBM内存封装中直接集成散热元件的iHBM方案。

这些消息密集地出现，并非巧合。当单颗AI加速器的功耗逼近1000W、单个机架的功率接近1兆瓦时，空气冷却的物理极限已经到了。施耐德电气总裁的判断很直接："一旦单芯片功耗超过某个阈值，液冷就不再是可选项，而是必需品。"

围绕"散热"这件事，半导体产业正在经历一次从芯片内部到数据中心外墙的全链路重构。

KAIST的颠覆性突破

在芯片级散热领域，传统的外部液冷方案正面临流体阻力大、泵送能耗高以及温度分布不均的瓶颈。6月16日，KAIST研究团队发表了一项突破性研究，展示了一种从芯片内部进行冷却的超高效液冷技术。

KAIST团队没有依赖昂贵的合成金刚石等特种导热材料，而是将"歧管微通道"（manifold microchannel）结构直接雕刻在硅半导体芯片内部。这种设计类似于一个高效的物流网络，通过在芯片上均匀分布多个微型入口和出口，大幅缩短了冷却流体的传输距离，从而显著降低了流阻和所需的泵送压力。

该技术的核心优势体现在三个维度：第一，极高的冷却效率——在实验中，该系统实现了106,000的冷却性能系数（COP），这一指标是2020年《Nature》所记录的世界纪录的10倍，意味着芯片制造商只需十分之一的泵送功率就能移除同等数量的热量。第二，极限热负荷下的稳定性——即使在每平方厘米2000瓦的极端热负荷下，该系统仍能使用普通的室温水将芯片温度控制在100°C的安全阈值以下。第三，与现有工艺的兼容性——整个微通道的制造工艺在350°C以下完成，完全兼容现有的商业半导体晶圆代工生产线，无需耗资数十亿美元采购新设备。

KAIST教授Sung Jin Kim指出，随着AI半导体和先进电子封装的性能越来越受热量限制，这项技术有望成为未来高性能计算系统的基础冷却解决方案。微流控芯片冷却技术的商业化前景广阔，据Fact.MR的报告预测，全球微流控芯片冷却市场将从2025年的3.843亿美元激增至2036年的28.6亿美元，复合年增长率（CAGR）高达20%。

HBM5时代的“热防御战”

在AI计算系统中，计算核心（GPU/ASIC）与高带宽内存（HBM）之间的数据传输是性能的关键。然而，随着HBM从HBM3E向HBM4E甚至HBM5演进，堆叠层数预计将达到20层左右，热量积聚已成为限制性能和可扩展性的核心瓶颈。存储芯片三巨头SK海力士、三星和美光的竞争焦点，已从单纯的容量和带宽比拼，转向了封装级热管理技术的较量。

5月27日，SK海力士率先发布了"iHBM"热解决方案，宣布将其应用于包括HBM5在内的下一代产品中。传统的HBM设计依赖于通过基础裸片散热，而SK海力士的iHBM方案则从结构上进行了颠覆。该技术将冷却元件直接集成到HBM堆栈与GPU之间的D2D PHY接口中。ICE是一种硅基材料，具备高导热性但电绝缘，在封装内部构建了一条额外的散热通道。SK海力士官方数据显示，该设计可将热阻降低30%，同时显著提升系统在高负载下的运行稳定性。

三星电子不甘示弱，在随后的COMPUTEX 2026展会上展示了其搭载HPB技术的HBM5模型。三星DS部门首席技术官Song Jae-hyuk确认，HPB技术已在HBM4E中实施，其可靠性得到了验证。与SK海力士类似，三星也瞄准了D2D PHY这一主要热源区域。HPB技术在D2D PHY区域引入了独立的硅基热路径，以改善热传导。三星此前已将铜基HPB结构应用于其Exynos 2600应用处理器中，实现了高达16%的热阻降低。而在HBM应用中，三星正致力于将HPB集成到整个内存堆栈的全局设计中，优化基础裸片和核心裸片的布局。

美光科技则采取了不同的技术路线。美光将重点放在低功耗HBM设计上，主要通过其硅通孔（TSV）沟槽冷却技术来实现。该技术在AI加速器芯片的硅片内部蚀刻微观沟槽，并循环冷却液以减少内部热量积聚。此外，美光在2025年获得的一项美国专利揭示了一种基于电气被动冷却TSV的垂直热管理结构。这些专门的散热TSV与信号TSV位于同一封装引脚内，不占用额外的裸片面积，形成了一条低阻力的垂直散热通道。

HBM厂商在热管理上的激烈角逐表明，先进封装技术已经超越了单纯的电气互连范畴，将热传导路径作为架构设计的核心要素。这一转变将深刻影响未来AI芯片的封装良率和制造成本。

英伟达Rubin平台的重构

如果说KAIST和存储厂商解决的是芯片和封装级别的散热问题，那么英伟达则在系统和数据中心级别推动了一场基础设施的革命。2026年6月21日，英伟达官方博客发布了一篇文章，详细披露了其新一代Rubin平台的散热架构。

Rubin平台是全球首个100%全液冷AI计算平台。在Rubin服务器中，不仅是GPU和CPU，所有的网络组件也都完全由闭环液冷系统进行冷却，彻底消除了系统内的风扇。这种设计的核心突破在于其冷却液（75%水和25%丙二醇的混合物）的运行温度。传统的冷却液入口温度通常在30°C左右，而Rubin系统将冷却液入口温度推高至45°C，流出服务器时的温度达到约55°C。

提高冷却液温度是基于一个基本的物理学原理：热量从高温物体流向低温物体。冷却液到达室外散热器时温度越高，无源室外干式冷却器就越容易在不依赖机械冷水机或蒸发冷却塔的情况下带走热量。据行业估计，冷水机组温度每提高1度，冷却能耗成本可降低约4%。

英伟达数据中心冷却与基础设施总监Ali Heydari表示："DSX参考设计实现了零水消耗。除了在某些气候条件下可能有1%的时间需要冷水机组外，这几乎是一个无需蒸发冷却的闭环系统。" 对于一个50兆瓦的超大规模数据中心而言，转向这种液冷基础设施每年可节省超过400万美元的冷却能源和水资源成本。此外，全液冷架构大幅提升了机架密度，原本占用6个机架单元的系统现在只需2个单元，同时消除了传统风冷服务器高达85分贝以上的噪音。

英伟达的这一举措具有强大的产业号召力。由于Rubin平台采用全液冷设计，所有为该平台构建系统的云服务提供商（CSP）和数据中心运营商都必须完成向液冷技术的过渡。戴尔和Supermicro等服务器制造商已迅速响应。戴尔推出了无风扇、直接液冷的PowerEdge XE8812服务器，单机架可容纳144个GPU，功率超过300kW。Supermicro则与埃克森美孚合作，验证基于NVIDIA B300 AI服务器的浸没式冷却技术，并交付了端到端的Rubin NVL4液冷机架解决方案。

液冷初创公司的黄金时代

随着液冷技术成为刚需，资本市场对该领域的关注度空前高涨。近期，液冷初创公司频频传出巨额融资消息。

Accelsius宣布完成6500万美元的B轮融资，由建筑技术巨头江森自控（Johnson Controls）领投。该公司的NeuCool两相直接到芯片液冷平台采用无水设计，据称与传统系统相比可节省高达50%的能源，每个插槽的冷却能力超过4500W。

另一家备受瞩目的初创公司是Omen AI。该公司在6月底完成了由Nava Ventures领投的3100万美元A轮融资。随着液冷系统的普及，冷却液的健康状况成为影响数据中心稳定运行的隐患。Omen AI开发了一种微型光谱仪，利用人工智能实时监测冷却液的化学成分，在细菌爆发或设备磨损导致数百万美元停机损失之前发出预警。目前，该公司已与包括TensorWave在内的十多家数据中心客户展开合作。

在资本市场的二级市场，投资者也用真金白银对液冷趋势投下了赞成票。在英伟达发布Rubin液冷细节后，传统HVAC（供暖、通风与空调）股票应声下跌。这反映出市场认为传统风冷设备在AI数据中心市场的份额将被液冷技术迅速侵蚀。同时，Vertiv、施耐德电气等在液冷领域布局深厚的企业，其市值在过去一年中实现了显著增长。BNP Paribas在6月的研报中将Vertiv和Eaton列为AI数据中心冷却领域的首选标的。

边界之外的挑战

尽管液冷技术在降低数据中心内部能耗和水耗方面展现出巨大潜力，但它并非解决AI能源危机的"万能药"。

芝加哥大学计算机科学教授Andrew Chien指出，英伟达的45°C闭环系统确实是一项工程壮举，但所谓的"零水消耗"仅仅是数据中心物理边界内的统计结果。根据Xylem和Global Water Intelligence的分析，到2050年，直接用于数据中心冷却的水资源仅占AI新增水资源需求的约4%。相比之下，为数据中心供电的发电厂消耗了54%的水资源，而半导体制造环节则消耗了42%。这意味着，液冷技术虽然解决了"近水楼台"的冷却问题，但并未从根本上消除AI产业链对整体水资源和能源的庞大消耗。

此外，地理环境也是液冷技术普及的制约因素。英伟达的45°C系统在温带气候可以实现无冷水机组运行，但在亚利桑那、得克萨斯或新加坡等炎热地区，在最热的日子里仍需依赖机械冷却。而当前大量规划中的AI数据中心恰恰位于这些水资源紧张的地区。

在商业落地方面，浸没式冷却等先进技术仍面临维护复杂性的挑战。将服务器浸泡在介电液体中意味着硬件维护需要将设备从冷却槽中吊出、排液并清洁，这大大增加了运维的时间和难度。日本电信巨头KDDI与三菱重工合作，在大阪堺市部署了采用浸没式冷却的商业数据中心，将冷却能耗降低了94%，PUE降至1.05。但这类部署的前期资本支出远高于风冷系统，且对现有老旧数据中心的改造难度极大。

经济学中的"杰文斯悖论"同样适用于此：当冷却每一瓦特算力的成本变得更低、更容易时，最可能的结果是部署更多、更密集的算力，从而在系统层面上抵消了单位能耗的节省。

结语

芯片冷却已经从一个边缘的工程支持环节，跃升为决定AI基础设施成败的核心战略要素。从KAIST的微通道创新，到SK海力士与三星的封装级热防御，再到英伟达主导的机架级全液冷革命，一条清晰的技术演进路线已经浮现：冷却系统正在不断向热源（硅片）逼近。

在这个由算力驱动的新时代，谁能最有效地管理热量，谁就能在性能、密度和运营成本上占据优势。热管理不再仅仅是物理学问题，它已经成为AI时代的"新摩尔定律"，定义着算力增长的物理边界与商业天花板。对于半导体产业链的参与者而言，掌握先进冷却技术，就是在未来的AI算力版图中握住了至关重要的入场券。

原文标题 : 芯片冷却，涌现大量“黑科技”