掌上超级电脑？ Project Digits 的文字游戏

来源:电脑报
关键字:文字,游戏,显卡
发布时间:2025-02-14 21:14

　　Cloud

　　今年CES 最重磅的官宣莫过于英伟达发布的RTX 50 系列显卡，但在老黄的演讲里，其实并不仅仅是说了显卡，他还重点提到了不少关于人工智能的新工具，其中就有我们本期的主角——Project Digits，一个被老黄拿在手心里的“桌面AI 超级电脑”，这小东西真有那么神奇吗？

　　统一内存，容量大但带宽存疑

　　现在大模型应用的瓶颈并不在算力上，而在显存大小和带宽上，我们以某个70b 参数量的4bit 量化模型为例，模型大小约为40GB，这就意味着GPU 要处理40GB 的数据，而如果按传统的专用显存，即便是最新的RTX 5090 也无法容下这个大模型。而Project Digits 最大的特色就是采用了128GB 的LPDDR5X统一内存，也就是CPU 和GPU 共享，如此一来，这个40GB 的模型就能顺利地部署在Project Digits 上。

　　值得注意的是，统一内存设计不是英伟达首创，苹果M1 才是第一例。与此同时，老黄还声称Project Digits 可以运行200b 参数量大模型，但这就引来了第二个问题：根据英伟达的官方数据，Project Digits 采用的Grace CPU内存带宽只有512GB/s，如果是这个参数，那带宽无疑将成为瓶颈。

　　为什么这么说？因为大语言模型每生成一个token，也就是每生成一个字，就需要将整个模型扫一遍来进行计算，所以扫描的速度就决定了生成文本的速度上限。还是以刚刚那个70b 参数量4bit 量化40GB 大模型为例，如果是512GB/s 的带宽，用简单的除法就能算出512/40=12.8，也就是ProjectDigits 在运行这个体量的大模型时，只能做到12.8 token/s，按老黄说的200b 参数量大模型，即便也是4bit 量化，也有足足110GB 以上的体积，只能实现不到5 token/s，剩下的十来个GB也装不了多少KV Cache，上下文能力也会大打折扣。

　　作为参考，以AI 编程为例，10token/s 以下的速度基本就失去了实用价值，20 token/s 以内马马虎虎能用，因为AI 会自说自话地分析一大堆，所以有时候甚至会觉得等它写还不如自己写。而真正能起到协助工作的水准，输出效率至少要30 token 以上。所以Project Digits 的内存带宽如果真是512GB/s 的话，200b 参数大模型就真的只是“能运行”的程度，即便是带宽翻番，从每秒token 数量来说也很难说得上实用。

　　多机互联才是最终目的

　　带宽之余，我们还是要看看ProjectDigits 的算力水平，官方声称内置的Blackwell 架构GPU 算力达到了1PFLOP，听上去很夸张对不对？但实际上是FP4 精度的AI 算力，和新发布的RTX 5070 完全一致。而在人工智能领域，更常见的大模型精度是FP8 和FP16，所以它的实用算力达不到这么夸张的数值。而且前面我们也分析了，大模型的应用瓶颈主要在显存容量和带宽上，没有使用HBM 可能也是为了节约成本，毕竟在“刀法”这方面，老黄从不会让人失望，而且Project Digits 的定位也确实填补了英伟达现有产品线的空缺。

　　值得一提的是，Project Digits 在玩法上倒是留了一手：它可以通过英伟达的ConnectX 进行至少双机互联，虽然官方只说了双机，但实际上用以太网连个七八台应该不在话下，而英伟达ConnectX-7 的带宽可以到400Gbps，双网口的设计可以让它们一个接一个，组建环形拓扑以提高数据传输效率和稳定性。以八台为例，这就是1TB 的共享内存，3000 美元一台的成本，相较组建同等显存容量的算力卡或游戏卡要便宜很多，适合不追求绝对速度的教育、研究和企业级大模型推理应用，“刀法”的确精准。

　　从业内分析来看，Project Digits 的主要竞争对手就是苹果的Mac Studio，单就深度学习的生态而言，英伟达的优势十分明显，同时这其实也是一个信号：当Project Digits，以及AMD 对标的Strix Halo 推出后，大模型的推理基本上就不再需要买游戏显卡来“大材小用”了，对于很多预算不高的企业和实验室来说是一个很不错的考虑对象。

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容