NVIDIA Maxwell发布前夜猜想

来源:微型计算机
关键字:NVIDIA,Maxwell
发布时间:2014-03-05 09:18

　　最近，有关NVIDIA下一代显卡Maxwell的消息越来越多了，首当其冲的就是GM107等GPU的规格和性能。和Kepler发布节奏类似的是，Maxwell也基本确定是首发小核心产品，大核心产品后期发布。那么，Maxwell在架构上究竟有什么改善呢？相比Kepler的进步在哪里？请看本文综合业内消息给出的分析和猜想吧。

　　最近关于GPU最热闹的新闻莫过于NVIDIA即将发布全新一代Maxwell显卡了。NVIDIA自从在2012年发布了Kepler家族产品后，在将近两年的时间内产品架构都没有实质性的更新了。这一次，NVIDIA在Maxwell芯片上将为用户带来一个全新的架构。在产品发布之前，用户最关心的问题莫过于：新架构的优势在哪里？能给用户带来什么样的体验呢？虽然答案在NVIDIA没有彻底解禁Maxwell之前，谁都不可能彻底知晓。但是从目前业界发展趋势、晶体管制造工艺发展情况以及NVIDIA对产品的规划来看，还是可以推测出不少的信息。尤其是目前处于Maxwell发布前夜，很多产品信息都已经在网上泄漏，因此对Maxwell新品的分析就更为有的放矢了。

　　好了，本文将采用问答的方式，就Maxwell昀发布时间、产品情况、架构改进和性能目标等诸多内容做出分析。不过由于是预测性质的内容，出现{昔误和偏差肯定无法避免，一切还得等产品正式上市后才能彻底清晰。

　　Maxwell的发布时间目前依1日不够明确，预计会是在年后2月中下旬。但可以明确的是：发布时间很可能就在最近，甚至在看到这篇文章时，Maxwell已经发布并上市也有可能。

　　NVIDIA在进入了统一渲染架构时代后，对产品发展节奏的控制曾经有过多次尝试和探索。就像英特尔一年一代的Tick-Tock那样，NVIDIA也逐渐形成了自己的产品发布节奏，那就是：两年一次大的架构换代，两次架构换代之间的一年主要以优化改进、型号升级为主。比如Fermi时代GTX 480的GFlOO算是架构换代的例子，而随后的GTX 580的G Fljl0则是优化改进、型号升级。两年后的201 2年的GTX 680、GTX 670、GTX 660以及GTX 650等Kepler家族产品都已齐备，这就是整体架构换代，2013年的G Kl-IO以及GTX 780的上市、GTX 770等产品的推出则是优化更新。

　　从Kepler发布到现在已经两年了，Maxwell无论怎么说也应该出来了，至少AMD已经从Tah…升级到了Hawa…GCN架构也有了更新。NVIDIA虽然依靠Kepler家族依1日应对有余，但是GPU发展以及更多新特性的需求使得Maxwell不得不出现，毕竟GPU市场虽然只在两家公司之间竞争，但是如果NVIDIA打—下瞌睡，还是有可能被对手轻松反超的。

　　根据目前的爆料来看，Maxwell依1日采用28nm工艺抒造。这是因为目前台积电TSMC的主流工艺还是28nm，20nm工艺也只是在20 1 4年第一季度才能开始进入大规模量产而已。考虑到NVIDIA可能早在2013年中期就将Maxwell的相关产品交给TSMC流片试产，那个时候NVIDIA是无论如何都不可能超越时间选择到20nm工艺的。因此可以断定的是，NVIDIA还将使用TSMC的28nm工艺来生产目前的Maxwell。只不过目前曝光的Maxwell从编号上来看明显都是小核心的产品——诸如GM-107或者GM-I -17这样的。为什么首先曝光的是小核心产品呢？答案很明显，20nm就算已经开始量产，但其良率和稳定性肯定无法用于GPU这样复杂的芯片。使用成熟的28nm生产Maxwell的小芯片，良率上更有保证。

　　那么，接下来的M axwell中等核心和大核心产品会使用什么样的工艺呢？从TSMC的规划来看，20nm的芯片可能要在2014年第一季度开始大规模量产。如果预期良好的话，难度较小的GPU小芯片可能在2014年3-4月使用20nm工艺进行大规模生产，发布的话可能会拖延到2014年中期。这样一来，新的Maxwelllz[l果使用20nm肯定赶不上2014隼初的发布计划了。如果是大型芯片的话，可能要到201 5年初（参考G K110，差不多使用了快一年时间才解决大规模量产的问题），20nm工艺才能解决生产的问题了，等得实在是太久了。

　　这里又出现一个问题。20nm的意义究竟有多大？之前在国外媒体对AMD的访问中，询问AMD是否考虑TSMC的20nm工艺来生产全新的Hawaii以及未来全新系列的芯片时，AMD回答的大意是出于经济性的考虑，相关产品短期内是不会升级到20nm工艺的。仔细分析—下，AMD的回答基于两个方面的考虑：

　　—方面，20nm成本相比28nm实在是太贵，再加上不可预计的风险，AMD不太会考虑迅速转换至新工艺。在这一点上，根据国外有关电子企业的估计，20nm的转换过程，需要投资总金额高达70 -1-171乙美元。而之前28nm只需要45亿美元左右，这些成本最后还是转嫁给AMD、NVIDIA这样的芯片用户的。

　　另一方面，20nm本身相对28nm改进不大。根据NVIDIA官方的资料，20nm相对28nm在最终成本的降低上并没有什么明显的优势。升级到20nm后，制造成本的上升甚至会对冲掉由于芯片面积降低而带来的成本降低。或者说由于工艺问题；20nm对晶体管尺寸的降低和芯片面积的缩小显得不够明显。再加上目前28nm工艺还是有潜力可挖的，因此AMD和IYIVIDIA最终都没有选择20nm，而是继续在28nm工艺上改进产品。

　　经过分析，短期内20nm的GPU似乎没有希望了。下一个问题是，未来AMD和NVIDIA是否要进入20nm时代呢？答案似乎也是否定的。因为根据TSMC的规划，20nm的寿命只有差不多一年左右的时间。也就是说201 5年的第一季度，真正的全代工艺、彻底革新的16nm FinFTE就将正式投产。相比20nm，16nm FinFTE（也就是传说的3D晶体管）才能算得上是真正的革命性改变。目前TSMC宣称自己16nm研发生产进展十分顺利，甚至会面向不同的用户提供不同类型的产品。考虑到16nm对晶体管体积和芯片面积缩小十分明显、鳍状栅极技术对晶体管性能的改进极为显著，16nm还是相当值得期待的。结合前文的分析，如果NVIDIA现在使用20nm生产中等核心和大核心的Maxwell产品，发布时间甚至会拖延到2015年。如果是这样，那还不如干脆等着TSMC 20-15年16nm产品上市后直接用16nm工艺生产就行了。

　　根据目前曝光的产品参数来看，G M -107拥有960个流处理单元，频率大约在1GHz左右，搭配128bit GDDR5显存颗粒，被称作GeForce GTX 750 Ti。另一款GeForce GTX 750的信息参数不是很明确，流处理器数量可能是768个，但是也有消息说是384个。考虑—下目前G K107酌GTX 650的规格，GTX 750的流处理器数量不太可能是384个，768个更有可能一些。而384个流处理器的G M107则很可能是接替更为低端的诸如GT 630这样的产品的。

　　除了规格曝光外，还有一些信息是有关Maxwell的性能的。曝光消息指出，GTX 750Ti的性能要略弱于GTX 650Ti Boost，但是胜出GTX 650Ti，和AMD的R7 260X性能相当。综合规格和性能来看，960个流处理单元的GTX 750Ti性能甚至要比768个流处理器的GTX650Ti Boost性能略差，可见128bit显存位宽导致的较低的显存带宽对GPU性能的制约还是相当明显的。只是目前不清楚GTX 750Ti是否原生就是128bit的，如果是的话（很大可能），那么显然这颗核心的确就是一个全新的、面向中低端市场的核心。

　　比较遗憾的是尚不能清楚知道GTX 750Ti的核心面积。在假设Kepler和Maxwell自JG PU架构没有革命性改变的情况下，可以从G K106的角度来推测：G K106的核心面积是214平方毫米，G K107的核心面积是1 30平方毫米，前者有3个显存控制器、5个SMX；后者有2个显存控制器、2个SMX。也就是说，1个显存控制器搭配3个SMX的核心面积大约是84平方毫米。如果G M107是2个显存控制器(对应-128bit)，5个SMX的话（对应960个流处理单元），再考虑各种周边辅助组件等，GM -107的核心面积应该在1 60平方毫米左右。

　　当然，这只是一个计算上的推测。如果Maxwell的核心架构设计发生大幅度变化，那么这样的推测就算最终结果比较接近，但还是失去了应有的意义。毕竟作为入门级产品来说，核心面积超过200平方毫米是非常令人难以接受的，最好将其控制在1 50平方毫米以内，才能以廉价产品的身份出现在市场上。

　　接下来，按照NVIDIA的惯例来推测，NVIDIA随后还会推出定位从中端到高端的G M-106、G M-104以及GMlOO等产品。不过这些产品消息更为稿少，因此暂时没有办法有任何的猜测了。另外，令人感兴趣的一点是，有关GMlOO（或者类似定位的大芯片），是否依1日需要使用28nm来生产呢？毕竟G Kl -10的核心面积已经达到了530平方毫米。虽然NVIDIA有超越600平方毫米的GT200的例子在前，但在28nm时代，还需要一颗如此巨大的核心吗？这个疑问，只有等到未来产品曝光才能解答了。

　　在产品发布之前，有关Maxwell的架构消息其实非常稀少，唯一知道的就是IYIVIDIA官方公布的有关每瓦特双精度性能的图片了。

　　在这张图中，Kepler的每瓦特双精度性能大约在6的位置，Maxwell大约在10的位置，也就是说Maxwell的目标性能功耗比要比Kepler提升60%左右。为了达到这个目标，可以从两个角度来观察之前的GPU发展是如何做到性能提升的，然后再总结有关Maxwell的情况。首先来看工艺。GPU的性能基本上是随着晶体管数量增加而不断增加的，晶体管数量又受限于当时工艺制程的发展情况——也就是说工艺决定了GPU的性能。当然不惜成本的话，GPU可以做得很大，不过这并不是本文关注的目标。在Maxwell上，工艺这一招可能不灵了。由于前文解稃的原因，20nm难堪大用，甚至最恶劣的情况是Ma×well这一代都要继续使用28nm工艺，直到后期16nm工艺成熟后推出改进版本。先来看最恶劣的情况_Maxwell只能使用28nm，-16nm制程不够顺、利良率过低导致迟迟不能生产，这样一来NVIDIA的操作空间就很有限了。在NVIDIA手中，Maxwell最大核心产品的芯片面积上限大约在600平方毫米以内，现在已经是533平方毫米了( Kepler)，还有大约13%的上升空间，这显然达不到60%的目标。除了最恶劣的情况外，还有一种比较好的情况，那就是NVIDIA顺利在28nm上生产了G M107、GM106、GM104后，到了2015年如果-16nm FinFTE的Maxwe…顺利投产的话，16nm大约能让同等芯片的线宽最多缩减至28nm的一半。这样一来，一颗500平方毫米的芯片在采用16nm工艺后，芯片面积可能缩减至300平方毫米。300平方毫米的面积，上升空间就大多了，如果继续扩充芯片规模，这样60%的性能提升还是可以轻松达到的。

　　工艺看完了，再来看架构。相比工艺而言，由于现代GPU的架构设计已经非常成熟。诸如GeForceFX这样的大失误NVIDIA应该不会再犯，因此架构改进能带来的性能提升都是非常有限的。那么，NVIDIA Maxwell还有什么架构改进的空间吗？

　　回顾—下NVIDIA进入统一渲染时代后，G80直到Fermi，可以算作一个节点。在这些产品中，每一个CUDA Core都非常庞大，以Fermi的CUDA Core为例，其中不但包含了整数处理单元、浮点处理单元，甚至还包含了指令模块诸如指令分发、操作数控钊、结果排序等组件。这样多个模块被放置在一个CUDACore中，实际计算模块中提供计算能力的晶体管的比例就不会很高，容易导致计算效能较低。因此从G80到Fermi，NVIDIA都在采用分频（也就是流处理器频率高于GPU频率）的方法来提高效能。

　　但是到了Kepler架构后，NVIDIA采用了SIMD阵列来加强效率。简单来说，CUDA Core就是纯粹的计算核心，无论是整数还是浮点计算，都交由SIMD阵列来完成。每一个SIMD阵列里面的计算单元，被称作CUDA Core。这相对之前Fermi的CUDA Core来说，计算单元体积小了不少，数量也多了不少，性能也高了不少——毕竟没有如此多的指令模块，也不分整数和浮点分别计算，统一计算后流处理器工作性能更高。

　　那Maxwell又是怎样的呢？从GM-107来看，流处理器的数量被进一步加多到了960个。如果GM107的芯片面积相比之前的G K107没有大幅度增加的话，那么NVIDIA可能采用一些手段来继续加强计算模块，使得核心中用于计算的单元比例更高，性能自然会提升。这就是架构上的大幅度调整，性能增长的首要来源是架构改进。如果GM-107相比G K107在核心面枳和流处理器数量呈明显相关的关系的话，那GM107就很就可能是NVIDIA对Ke ple r架构进行了一些小调整后使用的更大的一颗核心而已。这依然包含了架构调整的内容，但是性能增加的首要来源就是晶体管规模的增大而并非架构了。

　　总的来看，在工艺制程无法提升的情况下，目前的Maxwell将是NVIDIA展示自己在架构设计、产品优化上深厚功底的机会。毕竟依靠工艺、提升晶体管数量得来的性能提升不算太难，但是在工艺无法进步、产品面积严格受限的情况下，架构设计就成为决定性的因素了。

　　AMD已经展示了在28nm工艺下Hawaii所使用的GCN架构，实际上只是单纯地扩大了晶体管规模，没有做出核心架构的重大调整。那么，在Maxwell上，NVIDIA能否带来新的进展呢？我们拭目以待。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容