算力卡太贵,个人玩家用游戏卡跑AI 可行否?
- 来源:电脑报 smarty:if $article.tag?>
- 关键字:游戏卡,AI,指标 smarty:/if?>
- 发布时间:2024-06-28 13:56
Cloud
相对算力,通信带宽与内存指标差距巨大才是关键
以NVIDIA 前几年推出的H100/A100 为例,虽然我们称之为算力卡,但和RTX 4090 等游戏显卡相比,它们的算力优势其实并不算特别明显,这是因为NVIDIA 的算力规格玩了一些数字游戏,比如H100,它的Tensor FP16算力写的是1979 Tflops,但那是稀疏算力和稠密算力的总数值。所谓稀疏算力是指在完成任务的过程中,计算资源大部分时间处于空闲状态,这种情况通常发生在处理低密度数据或执行低复杂度任务时,因为大部分任务可以在很短的时间内完成,而服务器在等待下一个任务到来时,其计算资源并未得到充分利用。
与之相对的稠密算力是指在计算过程中,硬件资源大部分时间都在忙碌地工作,这种情况通常发生在处理高密度数据或执行高复杂度任务时,因为每个任务都需要大量的计算资源和时间来完成,服务器在处理这些任务的过程中,其计算资源得到了充分的利用。显然,对于人工智能来说,稠密算力才是最重要的,所以H100 真正有用的TensorFP16 算力是989Tflops。无独有偶,RTX 4090 官方宣传的Tensor Core 算力高达 1321 Tflops,但那是int8 算力,FP16 算力只有330Tflops,但即便如此,这个数值也已经比A100 的312Tflops高,所以算力的区别其实并没有想象中那么大。
真正拉开差距的是H100/A100 等算力卡夸张的通信带宽和内存指标。NVIDIA 的算力卡可以选择不走PCIe通道,而使用专用的SXM 通信,通过NVLink 实现多卡互联,这使得算力卡的通信带宽可以达到惊人的900GB/s。而RTX 4090 只能走PCIe,且砍掉了对NVLink 的支持,所以目前的上限就是64GB/s。内存性能上,算力卡使用80GB HBM2 显存,显存带宽最高可以到3.35TB/s, 而RTX 4090 的24GBGDDR6X 显存带宽只有1TB/s。
游戏卡无法训练AI,但可以推理AI
老黄精准的“刀法”历来都是广大玩家津津乐道的话题,对于利润更高的专业GPU 来说,严格的性能等级划分也是必不可少的。从技术上讲,大模型训练需要高性能的通信,而游戏卡,哪怕是顶级的RTX 4090, 砍掉的正好也就是通信效率,因为训练AI 往往需要GPU 集群工作,以Meta AI 开源的LLaMA-2-70B 大模型为例,使用单张A100 的话,完成一次训练需要170 万个小时,想要在1 个月内训练出来就需要至少2400 张A100,而游戏卡并不会像专业算力卡那样先天就是为集群而设计,就算给你两千多张RTX 4090,你也没办法把它们连接起来,再加上游戏卡也没有数据中心的使用许可,所以从根源上就无法实现替代。
除此之外,人工智能训练需要将海量数据放在显存内,显然,单张80GB显存的算力卡从规格上就形成了对游戏卡的降维打击,你需要使用成倍的游戏卡才能实现相近的显存容量。同时,算力卡的显存支持ECC 容错,可以有效降低故障率,而低故障率就是保持算力输出的根本。
既然无法训练AI,那游戏卡可以做什么呢?用过Stable Diffusion 的朋友们都知道,在跑本地文生图应用时,高性能游戏显卡的效率优势十分明显,也就是说在正确使用的情况下,游戏卡是推理AI 的一把好手。为什么强调“正确使用”,这是因为显存容量很容易成为瓶颈,目前的人工智能推理,无论使用流水线并行还是张量并行,内存带宽都可能导致效率问题,更何况计算过程中还需要将模型和缓存写入显存之中,所以很多本地AI 应用都需要玩家提前设置自己的显卡显存容量,才能实现使用效率的最大化,这也是RTX 4090 这种大容量显存游戏显卡非常适合运行本地AI推理的关键。