剑指未来,打造AI时代的高密智算中心
- 来源:互联网周刊 smarty:if $article.tag?>
- 关键字:AI,信息,农业 smarty:/if?>
- 发布时间:2024-11-08 17:10
文/张文学
OpenAI旗下ChatGPT和Sora的横空出世引爆了人们对人工智能的无限期待和遐想。一夜之间,人工智能逼近了革命性的奇点时刻。继农业革命、工业革命、信息革命之后,新一轮浩大的科技革命正全面开启。
AI大潮扑面而来,水面之上是令人叹为观止的智能化生成力、分析力和判断力,水面之下则是不断破纪录的万亿参数大模型和万卡数据中心,是以空前速度运转的超大规模、超高密度的计算集群。
面对空前规模的AI算力平台,来自基础设施领域头部企业的维谛技术(Vertiv)大中华区市场营销与产品应用高级总监顾华表示,AI的跳跃式发展点燃了数据中心的建设激情,但同时也把数据中心的规模和功率密度推向了空前高度。这对数据中心的供电和散热提出了巨大的挑战,这种挑战正在深刻地考验着基础设施供应商的应对能力,正在重塑基础设施行业的发展格局。
需求爆发,抢建AI算力底座
人工智能的这轮发展是爆发式的,对算力底座的需求也是爆发式的。2024年,美国科技巨头相继加大了对基础设施建设的投入,仅上半年,微软、Alphabet、亚马逊和Meta的资本支出就同比激增50%,总额突破了1000亿美元大关,其中绝大部分资金都流向了GPU、数据中心高速网络等基础设施领域。
“国内的情况同样如此,包括字节、腾讯、阿里、快手在内的科技巨头都在抢建各自的算力底座”,密切关注市场发展的顾华介绍说,“当前AI基建的需求是迫切的。一方面是科技巨头都不愿错过时机,科技企业一旦没有跟上时代的发展,后果可能是致命的;另一方面现有的基础设施依然无法满足持续增加的算力需求。这里面有芯片供应短缺的因素,也有基础设施建设周期的问题,以及供电、冷却上面遇到的瓶颈。”
高密智算挑战供电和制冷的极限
这一轮AI基建的热潮不同于以往。首先是资源向头部集中,由头部互联网企业主导进行大模型建设;其次是规模空前,千卡、万卡数据中心不断涌现,需要高容量、高承载力的数据中心提供支持,基础设施供应商需要对各类AI芯片和服务器进行适配,需要提供全链条的整体解决方案,需要加快交付速度,有时甚至需要用模块化和预制化的方式帮助客户迅速构建AI算力的护城河。
另外一个非常明显的不同之处在于,全新的AI智算型数据中心以前所未有的方式挑战了数据中心供电和冷却的极限。“这是功率密度激增造成的,”顾华详细介绍了挑战的根源与机柜密度发展的前沿趋势,“过去很长一段时间,整个机柜都在3千瓦到6千瓦之间运行,现在为了提升AI算力,需要在狭小的空间部署大量的GPU,这使机柜的功率密度迅速提升到10千瓦、20千瓦、30千瓦、40千瓦,甚至我们看到英伟达GB200解决方案已经飙升到132千瓦,而其正在研发的Rubin架构更是要突破惊人的200千瓦。这种功率密度远远超出传统数据中心的承载极限,对我们基础设施供应商的供电、制冷技术,以及解决方案的设计和部署能力提出了空前的挑战。”
全场景智算解决方案迎来广阔发展空间
高功率、高密度和超大规模智算数据中心彻底颠覆了传统数据中心的建设模式。面对挑战,人工智能领导者英伟达选择聚焦主要矛盾,重点突破核心的冷却难题。英伟达选择维谛技术作为独家液冷合作伙伴,双方共同开发了机架式混合冷却方案,这种创新系统可以支持高达200千瓦单机柜功率,相比传统机柜的功率密度提高了25倍。
建设智算中心的挑战是全方位的,不同于英伟达选择单点突破,基础设施供应商需要在技术、产品、设计、部署、实施、维护,以及成本控制和服务配套等方面进行全局谋划。“对于与头部AI企业进行深度合作的基础设施供应商来说,绝不能把供电和制冷视作‘单点问题’,不能只考虑供电的容量和PUE(数据中心消耗的所有能源与IT负载消耗的能源的比值),也不能只局限于液冷的突破,必须站在全局的高度打通所有链条,用高度融合的方案发挥最大的效益”,顾华介绍说,“凭借业内最全产品组合和全球前沿的智算经验,维谛技术已经打通了从电网到芯片供电,以及从芯片到户外散热的全部链条,推出了全场景的智算解决方案——维谛技术(Vertiv)360AI全链智算解决方案。这个专门针对人工智能的解决方案无缝融合电能管理、热管理、软件、端到端的全生命周期顾问及专业服务,能一站式满足AI智算中心的各种需求。”
“这是一种超前的方案和实践”,顾华对此非常自豪,“比如客户还在关注液冷系统是否能够解决散热问题时,我们已经能够告诉客户利用维谛技术(Vertiv)360AI全链智算解决方案,可以实现液冷、风冷和自然冷的无缝融合,不仅能够化解数据中心的功率焦虑,而且能够精打细算,用智能均衡资源的方式实现成本的最大节省;又比如当客户还在担心电力供应能否满足未来需求时,我们已经能够告诉客户利用维谛技术(Vertiv)360AI全链智算解决方案,能以‘搭积木’的方式扩展电力容量,并且充分考虑了对节能减排政策的落实,甚至还能够利用融合式方案帮助客户节省宝贵的空间资源,以及利用快速的预制式部署帮助客户掌控先机。”
这种全链智算方案可谓是面面俱到、恰逢其时,它站在“电”“冷”融合的高度扫清了高密度智算中心建设的各种障碍,以一站式解决的方式消除了客户的顾虑,它紧扣行业的发展趋势,致力于全面解决客户的实质性问题,相信一定会迎来广阔的发展空间。
马太效应与中国式竞争者
观察人工智能技术的发展,会发现马太效应正在发挥巨大的作用。无论是致力于通过大模型和AI应用推动AI技术发展的互联网巨头,还是为算力提供智算解决方案的基础设施供应商,资源都在向头部玩家集中,现象级的产品和解决方案也基本由这些玩家构建和推出。
强者愈强的马太效应正在维谛技术身上充分地展现。当被问及维谛技术为何能够不断地发展壮大,为何能够强化优势推出维谛技术(Vertiv)360AI全链智算解决方案时,顾华表示:“很重要的原因是维谛技术跨越中美,整合了丰富的全球资源。更重要的是,我们是‘本土化’做的最好的全球化企业之一。”维谛技术与中国有深厚的渊源,在2000年初以艾默生网络能源为主体,并购整合了华为电气的相关业务、技术和团队,正式进入中国,时至今日,企业的各种决策依然高度放权给本土的管理团队。可以说,国际化给维谛技术带来了全球视野和技术资源优势,本土化则给维谛技术带来了傲视同侪的战斗力和效率。
从物理机到虚拟化,再到云计算,数据中心基础设施的形态、架构和技术体系一直在演进,但多年来,机柜功率密度基本在3千瓦~6千瓦徘徊。进入AI时代,数据中心基础设施发生了革命性的变化,10千瓦以上的机柜显著增加,预计到2027年,10千瓦以上机柜会占到70%以上。更惊人的变化是,人们需要重新认识数据中心基础设施,它已不再是简单的硬件平台,它正在成为“工厂”,正在用算力生产人工智能这种“产品”。OpenAI首席执行官奥尔特曼提出惊人的预测,未来的两种重要货币是算力和能源。
在未来,智算数据中心可能是少数人拥有的宝贵资源,也可能是众人唾手可及的力量。没人能够精准地预测未来,就像人们不知道“超级智能”的样子,人们也无法窥见未来超级智算中心的形态。唯一确定的是,未来正在向我们快速走来,我们已经驶入赛道,只能全力以赴,去驾驭磅礴的算力,去善用科技的力量。