算力紧张,国产AI 芯片能否趁势而起

  • 来源:电脑报
  • 关键字:AI,芯片,国产
  • 发布时间:2023-04-22 20:06

  ChatGPT们的核心底座

  “训练数据+ 模型算法+ 算力”是ChatGPT 成长的基础, 以ChatGPT 为例, 训练ChatGPT3.5 使用英伟达A100 芯片,而一颗英伟达A100 芯片的成本约8 万元,完成整个训练过程需要三万颗英伟达 A100 芯片。此前战胜李世石的AlphaGO,训练只用了176 颗GPU。

  ChatGPT 的兴起推动着人工智能在应用端的蓬勃发展,这也对计算设备的运算能力提出了前所未有的需求。虽然AI 芯片、GPU、CPU+FPGA 等芯片已经对现有模型构成底层算力支撑,但面对未来潜在的算力指数增长,全球当前的算力显然有些紧张。

  全球算力每5 ~ 10 个月就要翻倍,截至2021 年, 全球计算设备算力总规模达到615EFlops、增速44%。浙商证券预测,2030 年, 算力有望增至 56ZFlops,CAGR 达到65%。而这还是ChatGPT 还未降临之时, 正常的算力需求预测值。

  2022 年底,ChatGPT 来临之后, 无疑又将拔高算力的增长曲线。根据通信世界数据,ChatGPT 的总算力消耗约为 3640PF-days ( 即假如每秒计算一千万亿次, 需要计算3640 天) , 需要 7~8 个投资规模30 亿、算力500P 的数据中心才能支撑运行。而这才是参数规模1750 亿的 GPT-3,除此之外还有参数5620 亿的PaLM-E,彼时,算力以及其背后的功耗还能顾得过来吗?

  算力芯片需求暴涨

  未来,AI 算法算力行业的天花板,由半导体行业的发展决定。

  AI 算力进入大模型时代,大模型的实现需要强大的算力来支撑训练和推理过程。以GPT 模型为例, GPT-3 175B 参数量达到1750 亿,需要大量GPU 协同工作才能完成。

  以Open AI 为例,微软专门为其打造了一台超级计算机,专门用来在Azure 公有云上训练超大规模的人工智能模型。这台超级计算机拥有28.5 万个CPU 核心,超过1 万颗GPU(NVIDIA V100 GPU),按此规格,如果自建IDC,以英伟达A100 GPU 芯片替代V100 GPU 芯片,依照性能换算,大约需要3000 颗A100 GPU 芯片。每台NVIDIA DGX A100 服务器搭载8 块A100,则需要 375 台,每台单价19.9 万美元,则自建IDC 的训练服务器算力成本为7462 万美元。

  AI 的云端训练和推断计算主要基于AI 服务器,对算力、存力、运力、散热性能要求更高,带动算力芯片、配套硬件、机箱等设施不断升级。算力芯片可谓算力的载体,通过其提供的计算能力,支撑互联网、科技、制造业等各个行业的发展和数字化转型。基于此,专家提出了算力与算力芯片之间的关系公式:算力 = (单芯片)性能 × 规模(即数量)× 利用率。

  而CPU+GPU 是目前最流行的异构计算系统, CPU 负责神经网络模型的构建和数据流的传递,GPU 只是单纯的并行矩阵乘法和加法运算。而随着专项计算需求的崛起,运行效率更具优势的NPU 芯片成为AI 算力芯片的主要发展方向。

  NPU 为特定要求而定制,在功耗、体积方面具有优势,在推理端应用潜力巨大。NPU 作为专用定制芯片ASIC 的一种,是为实现特定要求而定制的芯片,芯片设计逻辑更为简单。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。

  压力下的突围

  在关乎未来科技领域话语权的竞争中,各种纷争与冲突就从未停息过,半导体“卡脖子”问题同样出现在了AI 算力芯片领域,美国对华半导体管制已经从最初针对某些公司扩大到对半导体整个行业的全面限制。

  2022 年8 月,英伟达被美国政府要求停止向中国出口两款用于人工智能的顶级计算芯片,其峰值性能和芯片到芯片的 I/O 性能大致相当于 A100 的阈值,即 A100 和H100 两款芯片都将受到影响。AMD 也同样被要求禁止将其MI100、MI200 系列人工智能芯片出口到中国。而2023 年3 月1 日的延缓期已过,后续将无法向大陆市场出货。

  而在美国对中国半导体产业发展持续打压背景下,英伟达、AMD 断供进一步激发算力芯片国产化需求。当前已经涌现出一大批国产算力芯片厂商,寒武纪、龙芯中科相继推出自研GPU,海光信息的DCU (GPGPU)也逐渐打出知名度, 其他配套环节的国产化进程也正在加速推进。

  具体产品方面,目前景嘉微已成功研发JM7200 和JM9 系列GPU 芯片,应用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。而专注AI 领域核心处理器的寒武纪目前已推出了思元系列智能加速卡,第三代产品思元370 基于7nm 制程工艺,本身是寒武纪首款采用chiplet 技术的AI 芯片,最高算力达到 256TOPS(INT8)。

  总而言之,AIGC 推动AI 产业化由软件向硬件切换,半导体+AI 生态逐渐清晰,而在后摩尔时代,算力产业迎来巨大变局,我国算力产业迎来前所未有的历史机遇。

关注读览天下微信, 100万篇深度好文, 等你来看……