14nm工艺即将到来 Intel Broadwell技术前瞻

  • 来源:微型计算机
  • 关键字:目标,改进,工艺
  • 发布时间:2014-10-11 12:38

  Intel在8月11日召开了一场综合性发布会,由来自工艺和微结构多个设计层次的高管主持,向公众讲述了Broadwell微架构的更新和14nm工艺上的进步。一直位于技术领袖地位的Intel这次又带来了什么呢?

  Tick年推出新工艺

  按照Intel的Tick-Tock战略,2014年推出的Broadwell将主要侧重于工艺进步,微结构上不会做出什么大幅度改动,只会做出一些小幅度的调优。

  Broadwell的微结构来自于它的前代Haswell,Haswell的设计重点是性能功耗比,IPC的绝对涨幅并不明显,在Broadwell身上,这种趋势也延续了下来。所以关注单核心微结构的读者们恐怕要失望了,Broadwell大致上只是Haswell的14nm工艺迁移版,IPC的涨幅估计比5%高不了太多,主要的性能变化将来自于电路层以下特别是工艺层的改良。据报道Intel并不打算降低Broadwell产品线的芯片频率,Broadwell大概只会在同频率上性能略微超出Haswell一点,但是同时功耗应该会有一个比较可观的降幅。

  Broadwell的改进

  那么Broadwell到底改了什么地方呢?Broadwell的乱序调度窗口被加大,以便乱序调度引擎能够从更大的范围内挑选出合适的指令进行超前执行,二级TLB缓冲区也从1000个条目的容量增加至1500个条目的容量以避免过多的地址转换目标缺失。

  除了增加二级TLB的大小以外,在二级TLB上也新增了一个缺失处理单元,使得二级TLB能同时服务更多的TLB缺失,在多个TLB同时缺失的时候实现更高的调度能力。

  在访存子系统以外,纯运算单元的能力也经过了一些调优,浮点乘法器的延迟从5周期降到了3周期,除法器和向量单元的gather操作速度也有所提高。

  在老生常谈的分支预测问题上,Intel宣称在Broadwell上继续有所提高,笔者猜测这些提高的原因大致可能会有这么几种:增大分支预测器的历史记录表大小;提高分支预测的速度;缩短回退延迟;更好地处理分支历史记录和返回栈地址记录上的污染问题等等。但我们也不能对这一个子项期望很高,Intel在Broadwell上的努力也只不过是在榨取最后一丝性能。分支预测器的预测准确率早已被提高到了95%以上,剩下的提高空间寥寥无几。

  那么在Skylake上,微结构上的乏力局面有望得到改观吗?笔者同样持悲观态度。微结构上发掘更多指令级并行度,提升IPC的努力在2004年前后就大致达到了顶峰,Intel的单核心微结构上除了转向Core抛弃Netburst,Sandy Bridge使用tracecache的改良版uopcache,加入了早就应该加入的物理寄存器重命名之外,就乏善可陈了。历年的微结构改进大致也就是提高各种buffer/queue的容量,以及一些影响个把时钟周期的小幅调整。这并不是因为Intel丧失创新动力,也不是Intel向AMD放水避免反垄断调查的结果,而是确实遇到了技术障碍。硬件乱序多发射的执行框架已经发展了差不多三十年,可供挖掘的潜力已经所剩无几,单核心微结构可以预见的将来都不太可能再发生较大变化。继续推高IPC,在这个传统框架下就意味着需要继续推高功耗和设计复杂度,而且提高幅度与性能涨幅往往并不成线性关系。加之Intel目前的第一对手ARM的传统优势是低功耗嵌入式市场,Intel也不太可能再去重拾Pentium4式的不计代价疯狂追求指令级并行度的路线。据报道Intel要求Broadwell的设计每提升1%的功耗,需要提高2%的性能,这个比例极大地限制了Broadwell上所能做出的优化,从中不难看出Intel当前的设计目标并非绝对性能,而是在维持小幅度性能涨幅的同时,尽快地将自己的绝对功耗拉低至能够与ARM竞争的水准上。从这个比例中不难推算,Broadwell这5%的IPC涨幅只提高了2.5%的功耗,因此我们可以预计Broadwell的性能功耗比将会再度提高。

  在内置的集成GPU架构上,Intel所做的改变要比CPU微结构上更大一些,但在Tick年里,GPU的前进势头也有所放缓。到今天为止,Intel的Broadwell所内置的集成显卡已经是第八代,Broadwell的集成GPU只提供了20%的计算能力涨幅和50%幅度的采样吞吐率提高。这一数字看上去颇为可观,但是相比Sandy Bridge集成GPU的突飞猛进而言,还是差强人意。

  让我们首先从API支持上来观察这一代的集成GPU。Broadwell将会提供Direct3D11.2支持,这个11.2的更新虽小但是却包含了预编译shader头文件以及资源分块,因此支持11.2从长远利益上来看是一个明智之举。在11.2以外,Intel令人惊异地直接提供了Direct3D12的全线支持,这一点上Intel终于甩脱了长久以来落后的帽子。在图形API之外,Broadwell还将支持OpenCL2.0这一通用计算标准,包括OpenCL的共享虚拟内存特性,这使得Intel在缺乏一个与AMD并驾齐驱的HAS完整编程模型的情况下,仍能让程序员们有能力在CPU和GPU之间直接共享复杂数据结构,而不是采用原始的方式把所有的数据在CPU和GPU之间来回复制。

  当我们回头对比GPU的内部结构时,大家不难发现NVIDIA、AMD以及Intel都已经完全转到SIMD路线上来,VLIW已经风华不再。但各家的SIMD宽度仍然有所区别,NVIDIA提供了最为霸气的32宽度SIMD执行流水,这说明NVIDIA拥有足够的信心从上层的并行应用中发掘出高度的数据级并行度,而AMD的GCN则略逊一筹,只提供了16宽度的SIMD执行流水。单纯比较执行流水并不能反映GPU的最终并行性能,但是却能从侧面告诉我们各家厂商对上层应用中所能发掘出的数据级并行性有不同的估计值。Intel的GPUSIMD并行宽度最窄,仅有2×4,这是一个非常有意思的现象。Haswell的CPU内部已经提供了双256bit的SIMD流水线,很多数据级并行度不高的场合单靠CPU已经能够处理,在这种情况下GPU的SIMD并行宽度不升反降不能不说有些诡异。Intel将SIMD执行宽度降低之后,将SIMD执行单元的数目提高了,因此原先的10宽度×2单元变成了8宽度×3单元,才有了最终计算能力提高20%的说法。这个20%显然也是计算了峰值吞吐之后得出的理想数值。

  采样吞吐率在这一代提高了50%,这一点也显得有些异样,传统GPU上采样吞吐率一直在降低,但是Intel却在提升这一指标,笔者猜测可能是Intel内部重新分析了3D游戏的负载变化趋势,发现Haswell以及前代结构中的GPU可能使用了非最优的采样吞吐率才触发了这一改变。

  在功耗控制方面,Intel则比架构性能调整激进许多。传统的功耗控制手段之一是动态电压和频率调整,也就是许多玩家们口中所说的动态调频,但是电压下降到一定幅度时,就会低于晶体管开启所需的阈值电压,此时GPU就不再能正常工作。在Broadwell上,Intel干脆将整个GPU在闲置时关闭来节省功耗,这个激进的低功耗设计举措是封装在系统内部的,显示控制器的输出画面不会受到影响,程序员们调用GPU时也不会察觉到GPU的状态异样。本质上来说,这项能力等价于在GPU闲置时将之关闭,而显示输出可以锁定不变。现在暂时还不清楚这项低功耗设计是只在Broadwell-Y产品线上出现,还是对全线产品开放。

  在视频支持上,Broadwell提供了原生的4K显示以及UHD方案支持,HDMI2.0和Display Port 2.0对Broadwell来说为时尚早,因此Broadwell只提供了比较务实的HDMI 1.4以及DP1.2还有eDP 1.3a的支持。此前广受媒体赞扬的快速转码引擎也得到了加强,Intel宣称转码速度有了两倍的飞跃,同时转码质量也有所提高。目前暂不清楚这么大的性能进步是不是与GPU协同完成的。在视频解码上,Broadwell提供了次时代H.265的硬件转码,并且功耗水平控制在了与现有架构转码H.264相同的水平上。目前已知这个转码引擎需要GPU的参与才能完成全部工作,这个做法与NVIDIA在Maxwell上采用的方法类似,但这并非一个完美的解决方案,不难想象Intel可能会在此后的产品中将这部分需要GPU参与的工作也转移到能耗效率更优秀的专用功能单元上来完成。

  14nm工艺—让摩尔定律再进一步

  摩尔定律即将迎来终结的论断已在行业内流传了好多年,来自学术界与工业界的许多权威人物都纷纷给出了自己的预测,笔者参与业内会议的时候也听到了一些,大致上来说大家对当前占据主流的CMOS工艺技术终点的预期集中在7nm~10nm附近,时间点上大致在2020年左右。美国工程院院士MaryJaneIrwin近日在北大作学术报告时表示,尽管CMOS技术的死亡判决在历史上被下过许多次,但是这一回恐怕是真的躲不过去了。替代CMOS的备选次时代技术研究早已开展,但是包括呼声最高的碳纳米管在内,尚无一项技术能在所有指标上实现对CMOS的全面替代,因此MaryJaneIrwin预测将来替代CMOS的技术将不会是一种,而是多种技术的有机组合。

  14nm工艺变化

  Intel在工艺路线图上每前进一步,都要遇到来自物理极限的更大挑战。这一次Intel毫不犹豫地承认,14nm工艺是有史以来研发难度最大的。在14nm工艺研发阶段的前期和中期,良率一直落后于前代22nm工艺在同时期下的表现,22nm工艺是Intel历史上良率最高的一代工艺技术,因此摆在14nm工艺技术面前的是一道极高的标杆。Intel在发布会上宣称14nm当前的良率已经进入允许正常量产的范围,但是从这张图上来看,如果14nm的良率要赶上前代22nm工艺,Intel还有许多工作要做。在特征尺寸缩减和更精密的制造工艺以外,Intel也在改进他们的Fin FET器件技术,这一代14nm上的器件技术将是Intel的第二代FinFET。与22nm相比,14nm的Fin部分布局更加紧密,尺寸上更细更高,并且平均每晶体管上的Fin数目也有所减少。

  这些变化的结果是在某些方面提升了FinFet晶体管的性能。更大的布局密度与14nm工艺下的特征尺寸缩小紧密相关,更高更细的Fin部分是的使得驱动电流更大,这提高了晶体管的性能表现。同时,因为减少了每晶体管上的Fin数量,布局密度可以再次提高,而晶体管的电容则同时缩小。

  Intel还宣称说他们能够在提高晶体管开关速度与减少漏电流这两方面维持预期进度,与前代22nm工艺对比,在整个性能-功耗曲线上,新的14nm工艺都能够在同样的漏电水平上提供连续性的速度优势,或是在相同的漏电水平上提供连续性的性能优势,这对于Intel实现他们的CoreM移动处理器野心非常重要。关于良率的担忧可能是Intel召开此次发布会的原因之一,否则Intel无需在发布会上透露这种信息以及种种关于14nm的技术进步来让投资者们安心。Intel原先预计在2014年将Broadwell全线型号大规模铺货,但是过了年中仍没有多少消息,难免跳票传言四起。虽然14nm在2014年内终于可以投入量产,但是产品发布无疑受到了影响,原先打算的全线型号大规模铺货缩减到只有Broadwell-Y系列单独铺货,其余产品则延期到了2015年。如果Intel对当前良率问题进展的预估没错,要等到6个月以后,14nm的良率才能完全追上22nm良率的同期水平。第一个上线14nm新工艺的工厂是Intel的俄勒冈FAB,到今年年底时亚利桑那FAB才能转向14nm,2015年时爱尔兰FAB亦将加入14nm工艺的前沿阵营,直到那时,Intel才有足够的产能来满足多个芯片产品线的14nm更新需求。

  新工艺为Intel的芯片设计提供了更多便利。从缓存单元(SRAMCell)上来看,每个单元的大小几乎得到了50%的缩减,这是一个相当重要的进步,意味着同样大的芯片面积内可以塞进更多的缓存(但是缓存访问延迟未必能保持一致),除此以外,能耗比的增长势头也延续了22nm时期的强势,14nm的能耗比相对于22nm时期再度增长了两倍多,因此Intel只要在其他设计层面上不出昏招,14nm产品将继续在绝对功耗范围上下探,给ARM阵营施加更大压力的同时,也能为市场上的移动设备续航与散热表现添砖加瓦。

  最后再谈谈这一代制造工艺上的竞争形势。虽然Intel的14nm研发遭遇困难,上线运作出现了延期,但是Intel仍然非常有自信地在会议上指出,对比台积电以及IBM等竞争对手,自己的工艺优势非但没有缩减反而拉大到了一代以上。虽然Intel引用的是IEDM和VLSI等几个具备权威性的文章发表来源,但是逻辑面积大小的缩减仅是衡量工艺水平众多指标中的一个,在竞争对手的工艺水平还未出炉的情况下,这个比较未免有失妥当。但从另一面来说,Intel的第二代3D晶体管工艺即将上线,而竞争对手仍在调试其第一代工艺,这样的跨代优势存在也是难以否认的。据报道TSMC的互联工艺方面仍然在使用来自20nm时期的技术,若是如此,TSMC在互联工艺受限的地方将难以与Intel的工艺竞争,且TSMC的新工艺所能提供的尺寸缩减恐怕也将小于Intel在14nm上达到的幅度。

  CoreM—无风扇挑战

  在发布会中,Intel将新一代低功耗移动处理器CoreM所面临的难题称之为无风扇挑战。为了让重量级的芯片装进不到10mm厚度,又只能依靠被动散热的10英寸移动手持设备当中,整个SoC的功耗需要降至5W以下,前文中所谈论的许多低功耗设计,包括GPU的闲置功耗控制,其实都是在为这个需求服务。

  但是只有这些还远远不够,Intel为CoreM提供了一个专属版本的14nm低功耗工艺,设计了专门的独立核心(而不是简单地把不合格的高端核心阉割成CoreM),这个低功耗版本的14nm工艺提供了专门的低功耗型晶体管,专门为低主频下的操作做了优化,电容降低了10%,最低操作电压降低了10%,漏电流也得到了更大范围的压制,使得整个SoC的功耗降低了10%。这个特殊的14nm低功耗工艺看上去似乎是英特尔在14nm时代技术攻关的重中之重,整个14nm产品线只有Broadwell-Y能够在2014年年底之前投入量产,由此可见Intel对CoreM的重视。

  芯片上的全整合式电压控制器也迎来了第二代的更新。这一代的电压控制能效表现更好,在工作负载变化时能够更准确地控制电压,甚至在这个电压控制器效率不足的时候,芯片上还内建了第二个控制模块专门在低电压/低负载模式下部分地接手电压调节工作来减少功耗。

  在Turbo模式上,Intel一直以来秉承着“race-to-halt”的设计理念,也就是尽快完成工作,尽快转入低功耗休眠状态。作为这一设计哲学的体现,Broadwell-Y新引入了被称为PL3的第三层Turbo状态,允许系统在毫秒级的短时间内在更大幅度上超越TDP的限制,直至电池供电能力的上限。这一状态不能被反复开启,否则电池将迅速耗光,因此这个状态背后必须做出许多量化分析来保证功耗被节省下来而不是导致电量更快用光。

  最后,为了装进8~10mm的空间里,同时也顾及到移动手持设备上主板空间寸土寸金的现状,Broadwell-Y所占据的主板面积被缩小了25%,横向平面占据面积被缩减了50%,纵向的高度被缩减了30%(其中一半来自于基底面积从400um减少至200um的贡献)。

  结语

  Intel尽管统治着PC和服务器两块传统市场,但是近年来随着ARM的崛起,蓝色巨人一直被抨击转向缓慢,没有对移动市场的爆发式增长给予足够的重视,以至于养虎为患。这次发布会上Intel展示了许多针对低功耗方向的设计,在Broadwell-Y上的投入也显示出Intel重新进入移动设备市场的决心。今年下半年对Intel来说将尤其忙碌,Broadwell-Y上线之后将有什么样的表现,是否能获得移动手持设备厂商的青睐从而与ARM形成更加直接的对抗,我们拭目以待。(本文部分资料来源于Anandtech。)

  文 黄博文

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: