改天换地 锐龙 AMD Ryzen 7技术架构解析与产品介绍

  • 来源:微型计算机
  • 关键字:锐龙,AMD,处理器,技术架构
  • 发布时间:2017-04-10 11:36

  实际上这款锐龙AMD Ryzen 7处理器,也就是之前AMD早已透露,基于命名为AMD Zen处理器架构的产品。本刊在之前的多篇文章中都已经对Zen架构的技术细节进行了详细的介绍,因此本文不再重复这些内容,只是针对AMD在其正式产品发布会上重点提及的内容,以及Ryzen处理器在应用功能上加入的全新技术、产品最终配套规格进行解读。

  进入14nm时代—来自“GF”的礼物

  AMD早期在债务问题的压力下,将自有晶圆厂出售给相关投资人获取现金流,晶圆厂而后独立成立了格罗方德(GLOBALFOUNDRIES),也就是人们常说的“GF”。目前,从规模来看格罗方德目前已是全球第三大代工企业。不过,由于芯片制造工艺研发难度极高、投入极大以及投资周期漫长等原因,GF从成立到现在几乎年年亏损,工艺进步上表现也不够出色。GF的弱势再加上AMD在推土机架构上的失误,导致AMD在CPU工艺上一直止步不前,直到现在AMD FX系列处理器还在使用32nm工艺。在随后的28nm、22nm时代,GF都没有为AMD制造CPU产品。直到AMD不得不花费一亿美元和GF重新签署了协议,改变了和GF的代工绑定关系,APU等产品开始交由TSMC等代工,AMD才开始在产品工艺上逐渐追上时代。

  在Zen架构的实现上,AMD几乎面临着“最后一战”—只许成功不许失败。在这种情况下,GF先是获得了三星的14nm工艺授权,然后试产成功;AMD也通过和GF深入合作,终于在Ryzen处理器上成功完成产品制造。

  在工艺方面,本次AMD为其最新的锐龙AMD Ryzen 7使用的是GF/三星面向高性能产品的14nm FinFET LPP工艺,其VDD电压为0.8V,工艺的CPP(可以理解为两个相邻晶体管之间的距离)为78nm,鳍片片距为64nm,金属层之间的距离为64nm。相比之下,英特尔的14nm工艺的三个关键性数据—CPP是70nm、鳍片片距是45nm、金属层之间距离是52nm,全部都显著好于GF/三星的工艺。

  当然,英特尔工艺再好,AMD也无法享用。因此,AMD将很大部分的精力放在电源管理控制(后文还有详谈)以及芯片本身优化方面。实际结果是,根据AMD官方的数据,Zen架构四核心八线程的一个模块面积为44平方毫米,每个核心512KB的L2缓存占据了1.5平方毫米,8MB的L3缓存总计占用了16平方毫米。相比之下,英特尔对应的数据是49平方毫米、0.9平方毫米(256KB)和19.1平方毫米。可以看出,虽然AMD受制于工艺问题,在晶体管物理密度上难以达到对方的水平,但是经过调优后,AMD芯片面积反而小于英特尔对应的类似部件,最终实现了在工艺水平上的逼近。

  更注重单线程性能的SMT架构

  在这一部分,本文不会过于详细的分前端、后端、缓存等部分详细介绍Zen架构,而是从宏观角度着手,根据Zen架构的核心设计目标,对Zen架构为达到目标做出的设计和改进进行介绍。如果想进一步深入了解Zen架构详细细节的读者,可以参阅本刊往期的文章。根据AMD的介绍,AMD在Zen架构设计上主要瞄准了三个目标:更好的核心性能、更好的缓存性能和更出色的更低的功耗。

  对于核心来说,从各种账面数据来看,Zen变得更大、更宽,比如更大的分派、更大的退出、更大的调度器和更好的分支预测都意味着处理器能够在更长的时间内保持更高的吞吐能力。不过在保持更大和更宽的同时,数据延迟也需要很好的处理,Zen可以采用诸如micro-op缓存来帮助大多数指令流改进性能,并绕过潜在长周期重复操作的部分。此外,添加SMT同步多线程技术也可以使运算单元被满队列地占用,提高了处理器的运算效率。

  缓存方面,速度变得更重要。Zen的缓存速度变得更快、带宽变得更大。更快的缓存和更大的带宽降低了处理器等待所需消耗的时间。AMD宣称Zen的L1加入了回写功能、数据读入FPU的时间从之前的9个循环降低到了现在的7个循环,L1和L2的数据预取功能变得更好了,L1和L2的带宽相比之前的产品提升了1倍、L3带宽甚至提升了4倍之多。

  在功耗方面,由于AMD之前在低功耗处理器上有不错的表现,因此Zen架构继承了绝大部分功能。诸如更积极地检测核心关键路径,更好地控制各个区域的频率和功耗。Zen将有更多的时钟区域,不同的时钟区域可以运行不同的频率以提高效率。其他诸如微指令缓存、堆栈引擎、移动消除等设计,都使得处理器的功耗表现变得更为出色,效率更高。

  从设计上看,Zen采用了目前主流的4发射设计,两路SMT支持,微指令缓存等。Zen在很多关键性参数上和英特尔的设计有一定的相似。诸如决定乱序执行窗口大小的关键指标之一的重排序缓冲区,Zen与Haswell同为192项,Skylake为224项。在决定缓存数据访问能力的关键指标Load/Store队列上,Zen与Haswell完全一致,在乱序执行引擎中负责保存操作数的寄存器堆容量上,Zen与Haswell也基本持平。在乱序执行引擎中负责保存待发射指令的保留站上,Zen领先于Haswell。这些数据的相似,说明Zen已经彻底以单核心性能为主要目标,这也和之前AMD提到IPC大幅度提升的理念是完全吻合的。

  细节方面,Zen架构也充满了亮点。比如Zen使用了某种压缩BTB设计,让一个BTB保存两个分支,相当于将BTB的有效大小翻番,同时保持相同的访问延迟。指令缓存的配置是64KB、4路组关联,每周期32Byte的取指令带宽,而英特尔是32KB,8路组关联,每周期16Byte的取指令带宽,Zen在账面数据上略微胜出。在解码方面,AMD还加入了一层微指令队列用于实现独立的循环缓冲区(loop buffer),在执行循环指令时最大限度地关闭前端来节省功耗,另一面也可以缩减实际流水线长度。Zen的执行阶段使用了6分派6发射,四个整数执行单元的结构令ZEN的整数执行能力保持完好,每个周期可以执行两条分支指令,对高发射宽度下的分支预测,以及分支指令聚集的情况会有所帮助。

  另外,Zen的架构设计上还巧妙地采用了名为CCX(CPU Complex)的模块化设计方案。一个CCX模块中有4个核心,每个核心拥有自己独立的L1和L2缓存,一个CCX模块共享8MBL3缓存。每个核心都可以选择性地开启或者关闭SMT功能,也可以选择性地关闭部分核心。从设计角度来看,AMD选择CCX的模块化设计,理念是非常先进的。AMD巧妙地平衡了成本和扩展性之间的很多问题。根据AMD的资料来看,Zen架构的CCX模块之间是处于相对独立的关系,两个模块采用Infinity Fabric总线进行通讯。有技术报道称Infinity Fabric采用了先进的光纤传输技术,带宽和延迟都足够优秀,因此,AMD可以通过为处理器不断地添加CCX来扩充处理器的核心规模。

  相比之下,英特尔和AMD的模块化设计理念存在很大不同。英特尔在八核心、十核心等处理器的模块化设计只是核心部分,甚至不包括L3缓存,核心之间是采用环状总线和L3缓存绑定在一起的。也就是说,英特尔的所有处理器都挂接在统一的总线上,数据一致性通过统一的L3缓存保证,这样做的优势在于最大限度地提升处理器的性能和缓存的利用率,但是设计难度更高、功耗控制也更不容易。与此相应的是,Zen的某个核心如果跨CCX调用数据的话,延迟肯定长到难以忍受,因此考虑缓存一致性要求的话,很可能8核心锐龙AMD Ryzen 7处理器(L3缓存总容量16MB)实际有意义的L3缓存容量只有8MB,两个CCX模块L3缓存中的数据是一致的,并通过总线进行同步。目前AMD尚未对这个问题进行说明,还需要更多资料才能进一步解释清楚。

  总的来看,Zen的架构设计完成了AMD给出的三个目标,在功耗、缓存和功能上表现都很令人满意,最终的性能实现了大幅度领先之前的推土机架构家族,彻底站在了和英特尔平起平坐的地位上。

  功耗和频率控制—AMD SenseMI五大技术

  AMD之前的处理器在功耗控制上表现不是很理想,不过随着AMD推出了数代APU产品以及一些面向低功耗设备的产品,AMD在功耗和频率控制上变得愈发成熟。这次在锐龙AMDRyzen 7处理器上,AMD一口气推出了五项功耗和频率控制技术,并将其打包成一个系列,命名为AMD SenseMI。

  根据AMD的说明,Se nseMI包含诸如Pu re Powe r、Precision Boost、Extended Frequency Range、Neural Net Prediction、Smart Prefetch多项技术。下面我们分别介绍如下:

  1.Pure Power技术是AMD的一项全面监控技术,AMD在Ryzen处理器中内置了超过1300个关键路径监视器、48个片上高速电源检测器、20个热量二极管、9个高速降速侦测器。通过这所有的探测器件,AMD可以精确掌握处理器每个部分的电压、热量、频率和功耗情况。

  2.Precision Boost指精准频率提升,Ryzen的处理器频率可以25MHz为单位调整,直到达到功耗和温度允许的最大值。

  3.Extended Frequency Range是指自适应动态扩频技术,简写为XFR技术。这项技术的优势在于,当用户使用高端散热器或者处理器的温度在安全范围内时,处理器即使已经运行在最高Boost频率上,XFR技术还可以让处理器继续提升一小段频率范围,从而获得更高的频率和更好的性能。当然XFR技术和之前的Pure Power以及Precision Boost技术联合使用才能达到这样的效果。

  4.Neural Net Prediction神经网络预测,该技术能够大大减少现代CPU在运行中由于分支预测失败而造成的流水线重载,并影响性能的情况出现。从AMD的简介中可以看出,Ryzen加入了三级TLB,对指令拾取功能做出了加强;通过神经网络预测,能够自主学习、模拟之前分支预测的情况,从而降低失败概率并在每周期实现两个分支的预测。更大的L1、L2 BTB部分能够允许容纳更多指令以提高效率。另外,32路的返回堆栈和512路的ITA都能在很大程度上提升整体性能。

  5.Smart Prefetch 智能数据预取,这项技术是指AMD在数据预取功能上加入了自动学习功能,可以根据之前的程序使用情况来判断正在执行的程序可能需要什么数据,并将其预取至缓存中,加快数据执行速度。

  实际上,从玩家角度来看,前三项技术组成的频率提升功能是最能直观感受到性能增加的。为此,AMD也给出了一张图用于表示XFR结合Pure Power以及精准频率提升能带来的效果。

  以Ryzen 7 1800X为例,这款处理器的基准频率为3.6GHz,最大单核心的Boost频率为4GHz,所有八核心同时Boost的最大频率为3.7GHz。当高负载、单线程应用开始运行时,处理器会在温度和功耗允许的情况下,迅速提升频率到4.1GHz,并在温度达到上限后降至4.0GHz,随后再次提升至4.1GHz,然后长期稳定在4GHz运行。当激活的处理器核心数量大于2个后,处理器频率降低至3.7GHz,随后根据功耗情况不断在3.6GHz和3.7GHz之间动态调节。当处理器检测到任务已经基本完成时,频率降低至3.2GHz,然后Pure Power检测到处理器处于空闲状态时,会迅速降低处理器频率到2.2GHz进入节能状态。

  上述整个过程,完全是基于AMD Ry zen各项技术自动化完成的,不需要用户手动操作,也不需要任何第三方软件的干涉。不过部分消息称,目前诸如X FR等技术在使用时和Windows 10操作系统配合还存在一些问题,建议用户不要使用操作系统的“平衡模式”,这种模式下操作系统会接管处理器。只有改成“高性能”模式,XFR功能才会更好地发挥作用。

  三英登场—锐龙AMD Ryzen 7处理器首批产品简介

  AMD和英特尔在产品策略上存在很大差异,和英特尔常年忠实于Core酷睿、Pentium奔腾以及Celeron赛扬三大消费品牌不同的是,AMD在每次更换架构后都会同步更新核心品牌—从早期的Athlon速龙,到后来的Phenom羿龙、AMD FX等,几乎每一个重要的架构节点上,AMD都会推出一款全新的处理器品牌。

  在全新的“Zen”架构启用后,AMD宣布了处理器的英文品牌Ryzen,这个单词的读音和英文单词“risen”比较接近,包含了AMD即将冉冉升起、不断上升的美好愿望。相对应的,Ryzen处理器的中文名为“锐龙”,继承了AMD一贯以来的“龙家族”。

  在产品品牌确定后,AMD还打算以Ryzen为核心,打造一整套产品。其命名规则如下,以锐龙 AMD Ryzen 7 1700X为例,首先,锐龙AMD Ryzen作为产品名称和商标,是固定不变的。

  其次,随后的“7”指代的是顶级,“5”指代的是高性能产品,“3”是指主流产品,这和英特尔的酷睿系列处理器划分有异曲同工之妙。第三,接下来的型号则分为两个部分,这里的“1700”的“7”是指发烧级产品,与此类似的还有8。相应的,AMD也会推出4、5、6来代表高性能级别产品。至于主流级别,目前暂时没有确定,当然也有可能是3。另外,在最后两位尾数上,AMD会使用00、20、50等类似的数字来区分性能和频率等。

  最后则是后缀。X代表高性能处理器,拥有XFR功能。无后缀就是标准版本产品、G则是带图形核心的桌面版本产品、T则是低功耗桌面版本、S则是低功耗且拥有图形核心的桌面版处理器、H是高性能移动版本处理器、U是标准的移动版处理器,M则是低功耗移动版处理器。

  通过对产品型号的定义,AMD Ryzen处理器将拥有一个齐全、完善的产品线。不过本次AMD发布的锐龙AMD Ryzen处理器只有三款,分别是Ryzen 7 1800X、Ryzen 7 1700X和Ryzen 7 1700。这些产品的具体规格列表如下:

  目前AMD首发的处理器都是八个核心,包括两个CCX。根据AMD的规划,未来的Ryzen 5系列和Ryzen 3系列处理器将可能出现六核心和四核心产品,甚至不排除低端的Zen架构处理器会有双核心产品出现,当然是否冠之以锐龙AMD Ryzen品牌,那就要看AMD对市场的判断了。

  AM4正式降临—锐龙AMD Ryzen处理器的外观和接口

  一般来说,处理器这样的产品在外观上不会有太多内容。比如酷睿处理器和AMD之前的FX系列处理器,都是直接刻上产品型号和基本规格,普普通通。不过在Ryzen处理器上,AMD不但像平常那样印上了产品型号、代码等,还特别将Ryzen商标印在了处理器顶盖上,整体视觉效果看起来比较富有冲击力。

  除了外观,再来看看锐龙AMD Ryzen处理器的AM4接口。从尺寸来看,AM4的长宽和FM2、AM3+基本相同。AM4接口和之前的AM3接口在外观上最大的差别就是:AM3接口的针脚几乎是铺满了处理器底部基板,在AM4上则变成在处理器基板底部中央区域留空。当然,处理器针脚所占的面积减少,并不意味着针脚数量降低—实际上,AM4的针脚数量高达1331个,比之前AM3/AM3+的处理器部分的938/941个针脚大幅度提升,更是超出FM2+接口的906个针脚不少。考虑到全新的Ryzen支持了DDR4内存以及更快速的总线,还要为新一代APU服务,预留更多的针脚也是可以理解的。此外,AM4将接口插槽从之前的OPGA换成了uOPGA,最大热设计功耗也提升至140W以上,未来可以推出更多高TDP功耗的产品。所谓uOPGA,是指针脚的直径更小,因此在同样大的CPU底座上可以支持更多的信号线和针脚存在。

  全新扣具、全新散热器— 锐龙A M D Ryzen的散热方案由于功耗降低,AMD这次为锐龙AMD Ryzen处理器推出的散热器无论是用料还是设计都比较“轻量化”了。当然,面对超频玩家,AMD还是准备了一款使用热管的散热器,希望能够尽可能转移热量、提高频率。根据AMD官方资料,AMD的三款名为Stealth、Spire和Max散热器分别针对65W TDP、95W TDP以及超频用户。其中前两款采用了静音设计,AMD宣称其最高噪音分别为28dB(A)和32dB(A)。针对超频用户的散热器最高噪音则为38dB(A)。从外观图可以看出,Spire和Max上采用了红色灯带设计,在使用时会有红色圆形灯光,比较漂亮,适合使用侧透机箱的用户。用料方面,Stealth和Spire都是铝挤设计,大块的铝配合鳍片以及下压的风力将热量导出;只有Max采用了双热管设计,配有两根热管、铜制底座以及回流焊鳍片,在导热和散热方面的表现将更为出色。

  除了官方散热器外,第三方散热器也是很多玩家关注的重点。不过由于AMD的孔距是9 6mm×48mm,和之前AM3的90mm×54mm存在较大差异,因此绝大部分现有的、支持AM3的散热器无法使用在AM4平台上。对于这个问题,要么用户更换全新的散热器或者底座,要么用户可以咨询一下散热器厂商。目前也有一些厂商目前在官网上给出声明,可以为用户免费更换散热器扣具。

  双通道DDR4—Ryzen的内存搭配

  我们知道,锐龙AMD Ryzen处理器最高端的规格采用了8核心、16线程设计,因此对内存带宽是相当渴求的,毕竟八个核心都需要从内存调用数据的时候数据量可真不小。与此相应的是,英特尔在八核心处理器上采用的是四通道内存,实际上英特尔很早就开始尝试多于双通道的内存设计了,第一代Nehalem Corei7处理器采用的就是三通道内存。不过正如前文架构所说,考虑到更多通道内存控制器的复杂性、芯片面积和功耗等问题,AMD最终还是选择了双通道内存,只是内存支持了主流的DDR4,同时频率也大幅度提升。

  同时,AMD在发布会上针对锐龙AMD Ryzen与DDR4内存的搭配还专门给出了一张幻灯片解释:如果用户使用4根双面内存,频率最高为DDR4 1866,使用4根单面内存则可以达到DDR4 2133;如果用户只使用2根双面内存,频率最高为DDR42400;只使用两根单面内存,频率最高则可达DDR4 2667。不过在我们实际的测试中,其双通道内存频率还是能够达到DDR43000的。

  AMD 300系列主板—Ryzen配套主板芯片组

  同时,AMD也准备了一整套主板芯片组来搭配锐龙AMDRyzen处理器家族。在发布会上,AMD公布了三款芯片组,分别是X370、B350和A320,其中只有X370一款是全新发布。后两款产品在之前的Bristol Ridge发布时就已经和大家见过面了。除了这三款外,AMD还专门为SFF小型机市场准备了X300和A300两款产品,不过本次暂时不会推出。

  从AMD对产品的定位来看,X是指顶级产品,B是指商务系列,A则是主流产品。其中X和B系列产品都是不锁倍频的,用户可以搭配不锁倍频的处理器实现对倍频的调节,从而进行超频,A系列则不开放超频功能,AMD用一张表格(本页左下)详细解释了三款芯片组的规格。

  由于大量的参数都在表格中说的很清楚了,本文就不再赘述,只带来一些其他方面的消息。从产品规格来看,由于处理器的SoC化,AMD Ryzen实际上已经将诸如内存控制器、PCIe总线控制器等组件集成,芯片组的作用实际上相当于传统的南桥,提供SATA、USB、NVMe等端口等。有端口就意味着存在数据流,也就对带宽提出了要求。在芯片组和处理器的连接方面,AMD没有使用自家的HT总线,转而采用了标准化的PCIe通道。锐龙AMD Ryzen处理器一共内建了24个PCIe 3.0通道,除去独立显卡使用的16条之外,还有4条分给NVMe、SATA、USB 3.0等接口,最后的4条PCIe 3.0通道用于连接芯片组。

  一般来说,芯片组使用PCIe 3.0 x4连接带宽还是比较充足的,因此诸如X370这样的芯片组还能额外提供8条PCIe 2.0通道。为了区分产品等级,B350则只能提供6条PCIe 2.0通道,最低端的A320只有4条。其它接口方面,包括NVMe、原生的USB 3.1 GEN2、SATA Express等都一应俱全。对顶级玩家而言,如果需要组建诸如SLI、CrossFire这样的多显卡系统的话,只有X370主板可选。因为只有X370才可以将一个PCIe 3.0 x16拆分成两个PCIe 3.0 x8,相比之下,B350和A320都无法提供类似功能。另外,AMD官方没有声明自家的芯片组可以支持SLI功能。但在很多X370主板上,厂商往往都标明同时提供SLI和CrossFire功能,这应该是厂商单独和英伟达沟通授权的结果。

  AMD处理器未来会支持逆向超线程技术吗?

  终于,AMD现在也支持与超线程技术类似的同步多线程技术了,那么AMD处理器未来是否也能支持传说中的逆向多线程技术呢?本刊特别对AMD产品经理James Prior先生进行了专访。

  MC:近年来,只要新款处理器发布都可能会有这么个传言,未来会有个类似逆向多线程的技术把多核的计算能力模拟成单核。从技术角度而言,真的可行吗?

  James:我相信程序员可以写出来,但是实际的性能没准儿会更慢,所以并没有什么意义。你看,要想享受多线程的便利,传统的编程方法是把程序线程分成多个块,然后分配到多线程中去。如果你想尝试把所有的块合起来丢到一个线程中,整个时间反而可能会长得多得多,效率大幅降低。

  没有集成图形核心是否有影响?

  与FX处理器类似,锐龙A M DRyzen 7处理器也没有集成图形核心,那么它是否能胜任直播、推流这类传统依赖图形核心的应用呢?为此我们对AMD技术市场经理Robert Hallock先生进行了专访。

  MC:相比Intel 的产品,锐龙 AMDRy ze n7处理器在直播推流上有何优势?

  Robert:做直播推流的伙计们告诉我们,直播推流还是CPU的效果最好。没错,你确实可以使用内建的视频编码器来直播推流,比如Intel Quick-Sync,又或者NVIDIA和AMD显卡内置的视频编码器。不过,这种方式的画质和效果都有所限制,CPU是解除这种限制最好的方式。比如,我们的八核十六线程,你可以用其中的四核八线程玩游戏,另外的四核八线程用在解码和推流上。这样既可以得到画质最高的视频,也不会耽误游戏时间,一举两得。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: