再不降温,服务器就要烧坏了

  • 来源:电脑报
  • 关键字:降温,服务器,AI
  • 发布时间:2025-05-09 11:22

  之昂

  AI 服务器,一款巨大的电热水器

  AI 和能量的关系很密切,以前我们总说它是“耗电狂魔”,那么用于AI 训练和推理的大规模数据中心所消耗的电能,最终都去哪了?

  数据中心都是由大量服务器组成的,这些服务器消耗的电能绝大部分都转换成了热能,最后要通过水冷系统释放出来,类似于我们的家用电热水器。

  这些热能如果不能及时释放,那高热会让服务器里的高算力芯片加速老化。

  一年365 天无休的AI 芯片,本来就肩负着AI 深度学习的重任,具备极高的运算效能,也因此耗费着大量电能。如果散热环节不做好,那芯片的性能会直线下降。

  比如英伟达去年打算推出的新一代Blackwell 架构的数据中心AI 芯片,从3 月一直延迟到年末,主要就是因为这款芯片在定制的服务器机架中,一连上其他服务器就会出现过热情况,导致预定该产品的大客户们根本没法用它来运行新的数据中心。

  这么多年了,怎么就不能做出一款运算时不产生热量的芯片或电脑?很可惜,只要是在现在的计算机结构下,只要有运算、有数据读取,那就代表有做功;每次运算所使用的能量,最后都会以热的形式消散掉。物理学家拉尔夫·兰道尔(Rolf Landauer)1961 年提出的“兰道尔原理”,就已经发现了这一现象。

  他基于热力学第二定律认为,计算机中存储的信息发生不可逆的变化时,会向周围环境散发一点点热量,因为逻辑上不可逆的信息处理操作,意味着湮灭了信息,这会导致物理世界中熵的增加,从而消耗能量。另外,其散发的热量和计算机当时所处的温度有关:温度越高,散发的热量越多。

  也就是说,如果能把湮灭的信息拿回来,不就没能量消耗了?没错,但世上能做逆运算的大概只有“量子电脑”了。

  而按照英伟达CEO 黄仁勋的说法,量子电脑距离大规模应用“至少30 年”;既然如此,那就先降温吧。

  海水和风,都降不了温

  微软曾经尝试过把整个数据中心放到海洋中,利用海水来降温。

  一般大型数据中心都选择液体冷却,微软只不过发挥到极致,直接把装有数据中心的防水舱浸没在海水中,让它们可以更高效地执行云计算。

  但经过近十年的试验验证,微软还是放弃了这一方法。

  还有一些企业决定直接把服务器“泡”在冷却液中,也就是所谓的“浸没式冷却(Immersion Cooling)”。然而,因为水会导电,因此大部分冷却液都是氟化物。

  氟化物的效率虽然差了一些,但至少可以用。但问题是,氟化物生产或废弃时,很容易产生一种永久污染物,会对环境产生长时间影响。现在各家厂商都还在试验新的冷却液,例如矿物油等。

  更传统一点的方式还有“气冷”,也就是通过风扇带动空气,经过散热片带走热量。

  可以观察一下电竞选手的电脑主机,他们为了维持中央处理器(CPU)长时间高效高频工作,往往会升级主板、散热片、风扇等配件,使得升级后的系统散热能力高于热设计功耗(TDP,Thermal Design Power) 要求,CPU 不会因为长时间运作而发生过热,甚至休眠等问题。

  TDP 是指服务器在运行时消耗的热功率,它衡量的是服务器在正常运行情况下,所产生的热量和所需要的散热能力。换句话说,TDP 指的是一个处理器或芯片运作时可能会产生的最大热量,通常以瓦特(W)为单位,TDP 一般是该系统散热的最低标准。

  不过,单纯的“气冷”方式已经达到散热效率的极限。TDP 规格已达200W 以上的AI 高算力芯片,由于封装结构和材料的原因,早已不能使用空气对流当散热媒介。所以,现在的AI 算力厂商们要么选择水冷,要么就选择一种“气冷+ 水冷”的结合方式“3D 均温板(VC,Vapor Chamber)”。

  改变服务器的构造

  水冷也可以用于普通的电脑主机,电竞主机中也会有酷炫的水冷管,管内有不断流动的液体能迅速带走热量。这种散热方式效率好,且增加的体积不大。但万一发生漏液,绝对会损害其他元器件。

  而3D VC 在成本上就可靠多了。3D VC 顾名思义,就是把均温板层层叠起来,变成3D 结构。这个均温板长得像是一块金属板,但它里面其实是容易汽化的工作流体,原理跟散热片不太一样。

  当这种流体在热源处吸收热量后就会汽化,当热量被带走,汽化的流体会被冷却成液体并回流。这样一来,利用液体、气体两种不同状态进行热交换的方法,导热速度甚至比金属的热传导还要更快,热量分配也更均匀,不会出现热都聚集在热源处的情况,能更有效降温。

  不过这样一来,放服务器的架子会更大,空间就成了另一个问题。

关注读览天下微信, 100万篇深度好文, 等你来看……