掌上超级电脑? Project Digits 的文字游戏

  • 来源:电脑报
  • 关键字:文字,游戏,显卡
  • 发布时间:2025-02-14 21:14

  Cloud

  今年CES 最重磅的官宣莫过于英伟达发布的RTX 50 系列显卡,但在老黄的演讲里,其实并不仅仅是说了显卡,他还重点提到了不少关于人工智能的新工具,其中就有我们本期的主角——Project Digits,一个被老黄拿在手心里的“桌面AI 超级电脑”,这小东西真有那么神奇吗?

  统一内存,容量大但带宽存疑

  现在大模型应用的瓶颈并不在算力上,而在显存大小和带宽上,我们以某个70b 参数量的4bit 量化模型为例,模型大小约为40GB,这就意味着GPU 要处理40GB 的数据,而如果按传统的专用显存,即便是最新的RTX 5090 也无法容下这个大模型。而Project Digits 最大的特色就是采用了128GB 的LPDDR5X统一内存,也就是CPU 和GPU 共享,如此一来,这个40GB 的模型就能顺利地部署在Project Digits 上。

  值得注意的是,统一内存设计不是英伟达首创,苹果M1 才是第一例。与此同时,老黄还声称Project Digits 可以运行200b 参数量大模型,但这就引来了第二个问题:根据英伟达的官方数据,Project Digits 采用的Grace CPU内存带宽只有512GB/s,如果是这个参数,那带宽无疑将成为瓶颈。

  为什么这么说?因为大语言模型每生成一个token,也就是每生成一个字,就需要将整个模型扫一遍来进行计算,所以扫描的速度就决定了生成文本的速度上限。还是以刚刚那个70b 参数量4bit 量化40GB 大模型为例, 如果是512GB/s 的带宽,用简单的除法就能算出512/40=12.8, 也就是ProjectDigits 在运行这个体量的大模型时,只能做到12.8 token/s, 按老黄说的200b 参数量大模型,即便也是4bit 量化,也有足足110GB 以上的体积,只能实现不到5 token/s,剩下的十来个GB也装不了多少KV Cache,上下文能力也会大打折扣。

  作为参考, 以AI 编程为例,10token/s 以下的速度基本就失去了实用价值,20 token/s 以内马马虎虎能用,因为AI 会自说自话地分析一大堆,所以有时候甚至会觉得等它写还不如自己写。而真正能起到协助工作的水准,输出效率至少要30 token 以上。所以Project Digits 的内存带宽如果真是512GB/s 的话,200b 参数大模型就真的只是“能运行”的程度,即便是带宽翻番,从每秒token 数量来说也很难说得上实用。

  多机互联才是最终目的

  带宽之余,我们还是要看看ProjectDigits 的算力水平, 官方声称内置的Blackwell 架构GPU 算力达到了1PFLOP,听上去很夸张对不对?但实际上是FP4 精度的AI 算力,和新发布的RTX 5070 完全一致。而在人工智能领域,更常见的大模型精度是FP8 和FP16,所以它的实用算力达不到这么夸张的数值。而且前面我们也分析了,大模型的应用瓶颈主要在显存容量和带宽上,没有使用HBM 可能也是为了节约成本,毕竟在“刀法”这方面,老黄从不会让人失望,而且Project Digits 的定位也确实填补了英伟达现有产品线的空缺。

  值得一提的是,Project Digits 在玩法上倒是留了一手:它可以通过英伟达的ConnectX 进行至少双机互联,虽然官方只说了双机,但实际上用以太网连个七八台应该不在话下,而英伟达ConnectX-7 的带宽可以到400Gbps,双网口的设计可以让它们一个接一个,组建环形拓扑以提高数据传输效率和稳定性。以八台为例,这就是1TB 的共享内存,3000 美元一台的成本,相较组建同等显存容量的算力卡或游戏卡要便宜很多,适合不追求绝对速度的教育、研究和企业级大模型推理应用,“刀法”的确精准。

  从业内分析来看,Project Digits 的主要竞争对手就是苹果的Mac Studio,单就深度学习的生态而言,英伟达的优势十分明显,同时这其实也是一个信号:当Project Digits, 以及AMD 对标的Strix Halo 推出后,大模型的推理基本上就不再需要买游戏显卡来“大材小用”了,对于很多预算不高的企业和实验室来说是一个很不错的考虑对象。

关注读览天下微信, 100万篇深度好文, 等你来看……