真融合高能耗比新一代Carrzio APU技术详解

  • 来源:微型计算机
  • 关键字:创新,APU
  • 发布时间:2015-04-13 16:04

  AMD的APU自从推出后,就得到了市场和玩家的高度关注,这种融合CPU和GPU特性为一体的创新设计,给PC用户带来了全新的使用感受。从2011年的第一代APU到现在,AMD先后发布了多款APU核心,市场也覆盖了高、中、低不同的用户,形成了一个庞大的APU家族。在2015年的国际固态电路会议ISSCC 2015上,AMD公布了他们全新一代APU—代号“Carrizo”的新产品。相比之前的APU,Carrizo家族的APU在能耗比和设计上又有了重大突破。

  在Carrizo APU上,AMD终于实现了在硬件架构和软件层面对CPU和GPU的深度融合,并完全支持刚刚推出的HSA1.0异构计算标准,成为PC市场首个全面支持异构计算的硬件产品。回望AMD的历史,从2011年Llano APU仅仅将CPU和GPU制作在一颗芯片上的物理整合,到Trinity和Richland APU在硬件架构、总线和互联方式上实现初步的融合,再到Kaveri APU加入了革命性的统一寻址技术后,APU融合大计的完全体:Carrizo才正式登场。从目前的技术和信息来看,Carrizo APU拥有下列值得关注的特点:

  1.一颗芯片解决问题,真正做到SOC化

  如果购买一款使用Carrizo APU的PC产品的话,那么最令人惊讶的一点就是Carrizo APU只需要一颗芯片就能完成CPU、GPU、南桥和北桥所有的功能—这是AMD首次推出采用SOC设计的APU产品,这样做在很大程度上提升了系统的集成度,提高了效率并降低了成本。为了达到这一点,AMD经历了多代技术演进,并最终在Carrizo APU上得以最终实现。

  2.全面更新架构,完美支持HSA

  仅仅是单芯片的融合还只是表面功夫,在内部架构方面,Carrizo APU的进步同样值得瞩目。在CPU部分,Carrizo APU使用了全新的“挖掘机”架构,GPU部分则是源自桌面GPU的GCN 1.2核心—虽然我们往往对它们进行分开介绍,但在HSA异构计算架构的统一下,Carrizo APU能够实现超乎想象的异构计算能力,尤其是目前GCN1.2专为异构计算做出了充分优化,因此在正式发布后,Carrizo APU在异构计算上的强悍表现值得期待。

  3.创新的工艺改进,高密度库的独领风骚

  在制程方面,Carrizo APU目前依旧采用了28nm工艺,但是不要忘记,AMD作为业内唯一一个拥有高性能CPU和GPU设计能力的厂商,能够针对性地对CPU和GPU进行“跨平台”优化,各取所长。Carrizo APU的特色在于使用了独特的“高密度库”来改善整体产品的面积和功耗表现,最终效果非常突出。

  4.全面的功耗优化,提高能耗比

  Carrizo APU使用了大量的感应器来监控整个芯片的功耗变化情况,并通过一系列复杂的算法来帮助处理器实现功耗和性能的极致平衡,最终成为一款功耗和性能都令人满意的优秀产品。

  下面,本文将分别为大家详细介绍Carrizo APU在上述四个方面的创新和技术改进。

  面向移动市场SOC化的Carrizo APU

  APU的融合增强、集成化增强是AMD一直以来都在进行的一项工程。在上代APU Kaveri上,整个系统只需要一颗APU芯片和一颗南桥芯片即可,集成度已经非常高了。新一代的Carrizo APU上,AMD直接将南桥芯片集成进入了处理器内部,使其成为一颗SOC芯片。相比之下,目前英特尔的Broadwell-Y/U系列处理器依旧需要南桥芯片辅助,在这一点上,AMD显然走得更远。

  从技术角度来说,SOC芯片相比传统产品,不仅仅是芯片数量减少那么简单。由于SOC产品的集成度大幅提高,很多结构之间的互联都在芯片内部完成而不再通过主板上的走线完成,整体电路设计会更为简单,成本也会有所降低。此外,SOC芯片中的数据信号直接在芯片内部传递,不再需要通过主板布线完成,因此一般来说速度和带宽都有一定提升,效率也会相应变高。此外,之前的南桥芯片由于体积较小,工艺要求也不高,因此往往会使用比较老的65nm甚至45nm工艺完成。但是在完全整合进入APU后,芯片组则将使用和Carrizo APU一样的28nm工艺,这能进一步降低产品的电压和功耗。AMD还将整个芯片纳入了一个统一的功耗控制系统,能更有效地控制处理器的能耗情况。

  近年来,AMD一直努力推动自家“融合”计划的发展,Carrizo APU的SOC化正是这样发展路线的真实写照。不过,除了技术上的原因外,AMD将Carrizo APUSOC后很可能还有市场方面的考虑。已有的消息显示,目前公布的Carrizo APU几乎全部都适用于移动平台,暂时没有出现面向桌面平台的版本。考虑到移动市场对处理器的封装方式和功耗表现都非常敏感,Carrizo APU SOC化后能加强其在移动市场的竞争力,降低制造难度和设计难度,吸引更多厂商参与。

  值得注意的是,在AMD的路线图中,虽然都是Carrizo APU,但还可以更为细致地分为Carrizo和Carrizo-L两个系列,其中前者的处理器部分采用的是“推土机”架构的终极进化版本——“挖掘机”处理器核心,定位于有一定性能要求的主流用户;后者则采用了面向超低功耗领域设计的“Puma+”CPU架构。

  根据AMD数据来看,Carrizo APU的TDP功耗被控制在15W~35W之间,而Carrizo-LAPU由于定位不同,TDP功耗会进一步降低至10W~25W。两者都采用了代号为FP4的BGA封装,也就是处理器直接焊接在主板上,消费者无法自行更换。当然,本文的重点关注目标自然是Carrizo系列。

  全面升级的架构更高性能、更多功能

  Carrizo APU另一个最重要的进步在于使用了全新的架构。在CPU方面,Carrizo APU的CPU部分终于换上了最新的“挖掘机”架构,GPU方面则更新至GCN1.2,整体表现令人期待。先来看CPU部分的挖掘机架构。AMD自从2011年发布了推土机架构后,随后的几代产品诸如打桩机架构、压路机架构等,都基于推土机架构做出了一定程度的改进。比如之前的压路机架构就增强了处理器的整数性能,改善了缓存效率等。这次在挖掘机架构上,AMD之前的路线图描述比较有趣—Greater Performance”,也就是“更卓越的性能”。

  目前没有消息表示AMD将如何调整挖掘机架构以实现更出色的性能,但是从之前的手段和一些泄露资料来看,不外乎提高挖掘机架构的IPC,并且加入更多的指令集实现效能的提升。在提高IPC方面,最大的可能依旧是对处理器内部诸如总线、执行单元和缓存进行一些优化和调整,使得性能得以提升。有消息显示,AMD估计挖掘机架构的每时钟周期指令吞吐能力相比前代产品,大约会提升5%。缓存方面,挖掘机架构将在一级缓存访问延迟不变的情况将容量翻番,这有助于提升命中率,降低命中失败给挖掘机架构超长流水线带来巨大性能损失的可能,也能从一个侧面提高处理器在绝大部分场合下的性能。

  指令集方面,挖掘机架构的改进就比较多了,目前已知的消息显示,挖掘机架构将加入AVX 2.0(全称是“高级矢量扩展2.0”,它可以支持256位整数矢量操作、支持乘加融合指令、支持加载离散数据,AVX2.0指令集将对视频编码、音频处理、整数密集型应用带来一定的性能增长)、BMI2(位操作指令集)、MOVBE(和HSA功能相关的指令集)、RDRAND(和HSA功能相关的指令集)等指令集,并且还有望加入TSX支持事务性内存的指令集。除此之外,挖掘机在架构设计上的另一个特点在于配合工艺大幅度降低了芯片面积,这一部分的内容本文将在后文为大家详细介绍。说完了处理器架构上的改进,再来看有关GPU方面的改进。在之前的Kaveri架构上,AMD就引入了GCN架构,展示了出色的效能。在这次的Carrizo APU上,AMD进一步使用了更先进的GCN 1.2架构(源自桌面的Tonga核心),主要加入的功能包括支持无损Delta色彩压缩算法、独立显卡PCI-E一致性、整合更多有关HSA与并行计算的功能,以及加入非常重要的GPUContext Switching任务调度机制。

  该机制将让APU自己决定某个任务是在CPU核心上执行更好,还是在GPU核心上效率更高,毕竟并不是将所有任务交给GPU就等于快。先天的硬件架构设计决定着GPU擅长于进行并行运算,而CPU更擅长执行拥有复杂调度指令、循环、分支、逻辑判断的程序任务,因此需要APU对异构运算中的任务进行合理分配。而之前的Kaveri APU虽然实现了统一内存寻址,但是对一些GPU在HSA架构下运行时需要支持的功能、优化的任务调度机制并没有来得及加入。这次的Carrizo APU则彻底补充了其遗失的部分,这也是AMD之前宣称Carrizo全面支持HSA 1.0标准的底气所在。

  在规格方面,Carrizo APU的GPU部分在规格上和Kaveri基本相当,都最多拥有8个CU单元,每个CU单元都有64个流处理单元,总计512个流处理单元,支持DirectX 12、Mantle等API,并支持H.265转码。由于Carrizo APU的图形规格和之前的KaveriAPU相比没有大的进步,因此在3D图形性能上,Carrizo APU的进步应该比较有限。不过考虑到HSA功能的日渐成熟和强大,Carrizo APU在通用运算应用方面将有更为出色的性能体验。

  创新的工艺改进高密度库设计的魅力

  工艺方面,英特尔的优势几乎无可撼动。在其他晶圆厂商还在苦苦研发或初入14nm/16nm以及FinFET工艺时,英特尔早都开始投产改进版本的14nm FinFET工艺了,实际领先其他厂商远不止一个身位。诸如AMD,暂时还只能使用28nm工艺来制造APU。不过好在AMD拥有横跨高性能CPU和GPU的工艺运用和产品设计经验,能够更好地融会贯通,在Carrizo APU上,这样的优势就充分展现了出来。为了清楚地解释有关AMD使用高密度库的内容,本文先解释一下为什么晶体管制造需要一种名叫库(Library)的东西。

  一般来说,在集成电路的设计中,由于极高的集成度和极大的元件数量,很多部件不可能在设计时从零开始。比如一些输入输出单元、电源单源等常用的、标准化的单元,都会被设计为库(Library)供开发人员使用。举例来说,如果盖大楼的话,砖头被看作基本的元器件,那么库就相当于模块化的房屋,用户只需要在不同的地方放上不同的模块化房屋即可。在设计电路时,设计人员也往往会调用标准的电路库,实现自己的目的。

  不过,各种不同的电路由于目的和功能的差异,所使用、涉及的库也有不同。比如GPU和CPU,前者要求大规模、高集成度,但对频率并不十分敏感;后者则要求高频率、高性能,但由于晶体管数量相对较少,对集成度的控制则会比较宽松(也有考虑其他因素的原因,比如漏电率、层之间的厚度等)。一般来说,英伟达这样的GPU厂商,在委托晶圆厂代工生产GPU时,肯定选择更适合GPU的库来设计和生产相关的产品;而AMD在生产CPU时,也会选择和CPU设计目标相关的库。但是在APU上,问题来了,应该选择怎样的库才能满足APU的设计需求呢?

  在这一代的APU上,AMD的目标是“提高性能功耗比的同时降低成本”,这就意味着AMD需要尽可能小的处理器面积以及更为出色的性能功耗比表现。AMD可选的库有HP库(高性能库,High-Performance Library),以及HD库(高密度库,High-density Library)。AMD最终选择基于HD库,但是通过优化和调整,使得处理器依旧能够在较高频率下带来出色的性能。

  最终的结果可以用几个数字来衡量:Carrizo APU相比前代KaveriAPU产品,在同为28nm工艺前提下,CPU部分的总面积缩减了23%,其中包括处理器部分的浮点调度器面积缩减了38%、FMAC的面积缩减了35%,缓存控制部分的面积也缩减了35%等。在GPU方面,优化的高密度库使得漏电率降低了18%,GPU最大功耗被控制在20W左右—要知道在Kaveri APU上,6个CU单元就需要耗费20W功耗,和Carrizo APU上8个CU单元相当,这样的进步已经非常令人满意了。当然,还有一些工艺上的加强和改善AMD并没有提及,但最终Carrizo APU能够成功将TDP控制在35W以内又维持强劲的性能,工艺上的改进功不可没。总的来看,AMD宣称Carrizo APU相比前代产品,同等频率下功耗降低约10%。考虑到Carrizo APU晶体管数量增加了29%(Carrizo APU拥有大约31亿晶体管,相比Kaveri的24亿增加了大约7亿个),功耗改善却如此明显,所以AMD在28nm工艺的深挖优化上还是颇有心得的。

  加强的功耗控制全面改善性能功耗比

  除了在工艺上继续深挖外,AMD还采用了大量技术来全面改善处理器的性能功耗比。首先,电压自适应运行技术(Voltage Adaptive Operation)的加入使得处理器能有效减少不必要的电能耗费。一般来说,目前处理器的电压控制是非常困难的,因为平稳、低噪的电压几乎不存在,短时间内总存在微小的电压波动,比如瞬间增大10%。对处理器来说,如果电压升高至原来的1.1倍(也就是10%),那么功耗就会增加至原来的1.2倍(功耗波动和电压波动成平方比关系)。在这种情况下,AMD设计了电压自适应运行技术来控制功耗。这项技术根据处理器状态设定了平均电压值,当检测到电压波动时,处理器会迅速降低频率和电压来节省大部分被浪费的电力,随后在电压恢复正常时也同时恢复处理器状态。AMD宣称电压变动和处理器的状态变化发生在纳秒级别,因此几乎不会带来什么性能损失。根据AMD的数据,这项技术可为APU的CPU部分带来8%~20%的能耗降低,为GPU部分带来5%~10%的能耗降低,非常有意义。

  其次,AMD在挖掘机处理器核心里加入了AVFS(Adaptive Voltage-Frequency Scalingmodules,自适应电压频率扩展模块)技术,对电能控制更为精确,该技术在CPU部分现有传感器的基础上增加了十个AVFS模块。这些模块包含了大量更为优化的频率、电压控制方式,能够针对CPU的运行状态提供合理、精确的优化方案。有了AVFS,AMD宣称如果CPU核心部分维持在10W功耗的话,那么频率有可能能够提升29%;或者保持目前频率的前提下,将功耗降低至现有的40%~50%。不过,根据AMD给出的图示来看,AVFS在处理器核心功耗达到20W以上就几乎没有太大差别了,这意味着挖掘机处理器架构天生就是为低功耗移动版处理器设计的。

  第三,AMD为Carrizo APU增加了S0i3待机状态。在电脑以往待机的S3状态下,整个系统几乎处于休眠状态,这样的功耗虽然低,但需要等待保存并退出操作系统,略显麻烦。Carrizo APU新增加的S0i3状态,能够使得APU在待机状态下快速进入超低功耗状态,同时又能够迅速被唤醒。AMD宣称,在S0i3状态下,整个APU的所有模块除了ACP和FCH外,都被彻底关闭,整体功耗低于50mW,从满载运行到待机,所需时间最快不超过1秒。而在需要唤醒时由于没有彻底断电,因此其启动速度也能达到相应的水准,电脑很快就能进入工作状态,用户不必长时间等待,非常方便。

  通过上述三项技术,AMD在APU的功耗控制上得到了非常出色的表现,这也是AMD能够放心让Carrizo APU征战移动市场的最大依靠。

  Carrizo APU:融合计划迈向新时代

  从Carrizo APU所拥有的技术特性来看,AMD可谓不遗余力,将自己目前几乎所有的先进科技都投入其中。而Carrizo APU无论是功耗还是预期性能,都相当令人满意。从AMD战略的角度来看,Carrizo APU是AMD融合计划完成的标志,也是AMD迈向全新未来的开始。Carrizo APU的发布,标志着AMD在异构计算上搭建的硬件大厦已经基本完成。目前HSA1.0版本已经正式发布,AMD终于有了异构计算推广的技术基础。随着更多的软件加入HSA计划,APU的威力还将进一步释放。

  不过在Carrizo APU耀眼的光芒下,还有一些隐忧值得注意。目前AMD作为一家无晶圆厂的设计公司,对生产工艺的掌控大不如前。同时AMD的CPU架构一直没有太大起色,即使是目前最新的挖掘机架构,也不太会对英特尔的Haswell、Broadwell带来太大威胁,AMD还需要等待2016年Zen架构的诞生。最后再来看看产品定位。

  Carrizo APU目前只有移动版本,并且定位为主流用户,这意味着Carrizo APU并不是奔着移动高性能去的,而是力求以最平衡的性能和功耗表现为主流用户提供出色的使用体验。之前AMD在移动市场上都不算很“给力”,这次SOC化的Carrizo APU是否能够翻身呢?目前从厂商的反馈来看,Carrizo APU有希望得到一众厂商的支持,相关产品也即将上市。相信Carrizo APU凭借自己出色的素质、功耗和性能表现以及异构计算的特性,应该会赢得很大一批消费者的青睐,为自己的移动市场开拓出新的天地。

  文/王绍华

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: