凤凰涅檗 英特尔全新Bay Trail平台解析

  • 来源:微型计算机
  • 关键字:英特尔,Bay Trail
  • 发布时间:2013-12-05 13:43

  Atom,这个曾经在2008年大红大紫的产品,之后的发展却有些平淡。时间来到2013年,英特尔对移动市场的野心使得Atom终于迎来了机会,它被彻底重制以适应目前移动计算市场越来越快的发展速度。这就是Bay Trail平台,一款集成了之前Atom的CPU核心并加入英特尔大量独有技术的全新SOC芯片,它将主导英特尔未来在移动市场的发展脉络。本文将和你一起走近Bay Trail,了解它内部的秘密。

  英特尔是一个创新能力很强的公司。在PC时代,英特尔将PC的性能不断推动前进,使得我们能够在台式机和笔记本电脑上享受到之前几乎只有巨型计算机才拥有鼢|生能。不过,即使是巨人也有疏忽的时候,在进入移动计算时代后,英特尔并没有在手机、平板上有太多亮眼的表现,ARM处理器占据了绝对优势的市场份额。

  现在这样的情况可能会得到彻底改变,英特尔使用最先进的22nm 3D晶体管工艺,全新设计的Silvermont架构的CPU,全新整合的Bay Trail平台再次杀入移动计算市场——英特尔已经摆开架势,气势汹汹地袭来!

  目前英特尔已经公布了大量BayTrail SOC芯片的信息,包括内部设计和结构等。从资料来看,Bay Trail SOC苍片内部功能模块众多,结构复杂,CPU部分仅仅是其中一小部分而已。其中Bay Trail-T面向的将是平板产品,而BayTrail-M、Bay Trail-D面向入门级笔记本电脑、台式机,但是品牌不属于Atom,而是划归到奔腾、赛扬。它们的架构一样,区别只是在于一些规格上,所以我们这里选取其中的Bay Trail-T进行详细解析。

  在Bay Trail-T SOC的内部模块示意图中,英特尔用不同颜色区分了不同的功能模块。比如CPU核心部分使用了蓝色,缓存是黑色,功能模块都是绿色,内部调配单元是橙色,系统交换总线部分是浅灰色,外接接口是浅蓝色。此外,英特尔还将Bay Trail SOC的芯片分为上下两个部分,上半部分主要提供计算性能,下半部分主要提供外接接口,非常类似于之前的南北桥架构。

  先来看上半部。Bay Trail SOC示意图的上半部主要集中了计算模块。在图中展示了四颗Silvermont的CPU核心,分为两个模块,每个模块由两个CPU核心共享1MB L2缓存。图中共有两个CPU模块共计四个CPU核心,L2缓存容量一共为2MB。除了CPU外,GPU部分并没有继续使用PowerVR SGX系列核心,而是采用了全新的英特尔高清显示核心,其基本架构与Haswell芯片所使用的核心一样,也支持DirectX 1 1、OpenGL ES 3.0等。有关Bay Trail SOC的CPU和GPU部分,本文还将在后文进行详细解读。

  除了CPU和GPU外,上半部比较重要的模块化组件还有电源控制模块、图像信号处理模块、视频解码模块、显示输出模块以及双通道肉存控制器——之前英特尔Atom处理器的内存控制器都是单通道设计。在目前显示分辨率越来越高的情况下,单通道肯定无法满足用户需求,因此在Bay Trail SOC上,英特尔干脆给出了双通道、支持LPDDR3/DDR3L的内存控制器。考虑到之前英特尔内存控制器的强大功能,Bay Trail SOC在内存测试中的表现非常好。此外还有位于核心上部中央的橙色Silvermont系统管理器模块,它的主要工作是将所有的数据汇总判断后,传递给下半部的系统交换总线。换句话来说,系统管理器相当于芯片的数据调配中心,通过它所有功能模块才能正常稳定的工作。在外部接口方面,上半部只有图形输出的相关接口,比如HDMI -1.4、DisplayPort l.2等。

  再来看下半部,下半部主要是功能性模块。和上半部的系统管理模块一样,下半部的所有设备都连接在系统交换总线上。下半部的设备主要包括通用输入输出接口控制器、系统控制器、低功耗I/O控制单元(用于控制PWM芯片、12C单元等)、安全模块、存储控制单元(支持SD卡、SDI0 3.0控制中心、eMMC控制器等)、USB 3.0控制单元、音频控制单元等,此外还有与这些单元相匹配的各种接口。 在了解了Bay Trail SOC的基本信息后,让我们来看一看英特尔另一份资料中关于Bay Trail芯片的设计资料。比如Bay Trail-D相Bay Trail-M这类用于桌面和移动产品的SOG芯片可能会开启支持PCI-E总线的模块,不过最大带宽只有PCI-E 2.0 4X,挂接低端显卡还是基本够用了。内存支持方面,目前的Bay Trail家族最大可以支持8GB内存,最高频率支持DDR31333,最低规格也可以使用DDR2 800。英特尔还给出了一些芯片尺寸信息,比如Bay Trail SOC芯片封装尺寸根据不同的用途有27mmx25mm和-17mmx17mm两种,前者对应的是车载、嵌入式、笔记本电脑、台式机等设备,后者对应的是平板等设备。不过前者由于尺寸大,支持的接口和功能也更丰富,后者由于尺寸较小,部分功能被精简了,比如不支持VGA接口,SATA接口也只有1个(前者为2个),不支持干兆网卡等。

  Bay Trail在架构方面的改进集中在两个地方,一个是全新设计的CPU架构Silvermont,另一个是GPU架构。下面先为大家介绍Silvermont架构。

  真正的乱序执行

  在第一代Atom所使用的Bonnell架构上,英特尔为了在尽可能简单、节省晶体管、节省功耗的前提下完成核心设计,最终采用了顺序执行的方式。顺序执行是指所有的操作按熙流程来,哪怕前操作需要等待很久而后操作与前操作几乎没有相关性,后操作也只有默默等待前操作完成才能继续进行。面对顺序执行,软件在编写时需要为硬件进行优化,尽可能避免那些相关性不足又排在前列等待或者挂起的操作占用整个CPU的时间。

  顺序执行可以看作英特尔在当初工艺、功耗约束下的权衡选择。实际上ARM处理器在Cortex-A8上也采用了顺序执行,之后的Cortex-A9只做到了部分乱序,只有在Cortex-A15上乱序执行才被彻底应用起来。乱序执行的优势在于可以控制流水线中指令的先后顺序,将最紧急的指令排列到前端去迅速执行,同时也将那些处于等待、挂起甚至卡死的指令放在末端,最大限度地保证整个流水线的工作效率,使得CPU内核处于理想的满载工作状态,从而获取显著的性能提升。现在,Silvermont核心终于彻底支持乱序执行架构,它的前端顺序发射指令,中端乱序执行指令,后端又顺序将执行完成的指令写回,其中还包括复杂的指令预测等内容。毫不夸张地说,Silvermont在支持乱序执行后,真正可以被称之为是一款性能级产品。初步估计,乱序执行将为Silvermont带来相比之前Atom核心至少30%的单线程性能增长。

  乱序执行的好处很多,坏处也同样明显,那就是它不但增加了CPU设计的复杂程度,还随之带来了较高的功耗。不过这两处不足放到Silvermont上,就目前看来也已经不算什么了。且不说英特尔在移动处理器功耗控制上技艺精深,仅仅凭借独步全球的22nm Fin-FET三栅极晶体管工艺,英特尔就能很好地压制住Silvermont核心由于乱序执行所带来的高功耗,甚至可以将Silvermont核心的功耗降低到比之前顺序执行核心还低得多的水平——以便用在智能手机等对功耗极端敏感的设备上。

  略微缩短的流水线和更强悍的分支预测

  Silvermont昀另一个重要改变是将流水线级数缩减了。之前的Atom核心拥有16级流水线,在Silvermont上根据指令的不同,流水线级数可能为14 -17级,略微缩短的流水线表明Silvermont每一步骤所需要做的工作更多,理论上对频率提升有轻微的不利,但影响不大(实际上工艺更重要,而且针对移动设备的处理器,在频率达到一定水准后,更多应该考虑的是提升效率)。

  处理器设计中另外一个非常困难的地方在于对分支预测的处理,这方面英特尔有丰富的经验,Haswell处理器的分支预测性能非常强大,能避免至少95%的预测失败,从而获取相当出色的执行效率。在Silvermont上,使用如此庞大的分支预测单元显然不可能(这样强大的分支预测单元需要的晶体管数量和核心面积甚至可能比Silvermont核心大不少),但是英特尔还是为Silvermont设计了一个比较小的、精简的分支预测单元。英特尔将分支预测中最可能出现、利用率最高的预测算法加入Silvermont,并保留了间接跳转和返回栈两个预测器。在这些功能组件的帮助下,Silvermont在缓存未命中时重新读取数据的路径也得到了改进。在此之前,如果出现这样的情沉大约需要浪费1 3个时钟周期,在Silvermont上这个周期被缩短到了10个。

  借助于流水线的改进和强悍的分支预测单元,Silvermont相比早期的Atom至少提高了5% -10%的IPC。

  双发射设计和新指令集

  在CPU核心的设计上,ARM阵营的新产品都显得比较喜欢“宽”方案,比如苹果和ARM的新处理器普遍转向三发射设计。每个周期3条指令要比每个周期2条指令的理论速度快50%,但随之而来的后端资源也要跟上才能适应如此多的指令同时涌来,这就很可能造成晶体管规模的增加——每增加2%的性能,可能需要增加1%的功耗,这对功耗敏感型产品来说是难以接受的。在Silvermont上,英特尔还是谨慎地维持了之前产品所采用的双发射设计。

  虽然依1日是双发射设计,但是英特尔加强了Silvermont前段解码器的性能。一般来说,很多x86指令可以被解码器翻译为一个或者数个微码并进行快速操作,但也有一部分无法通过解码器翻译成适当的微码,最终会走上最为缓慢的处理流程,从而拖累整个系统。在Silvermont上,英特尔加强的解码器能尽可能多地将指令翻译为合适的微码(当然受限于规模无法全部翻译),尽可能地减少性能损失。

  虽然是双发射,但是由于英特尔使用了更强的解码单元,再加上合适的后端执行资源,Silvermont的性能相比之前的Atom核心还是有非常明显的增长。这也是英特尔必须达到的目标。

  Silvermont现在可以支持64位了。在目前的应用中,支持64位更多的目的在于内存容量可以扩充得更大。在多媒体指令集方面,Silvermont也终于开始支持诸如SSE4.-I、SSE4.2、POPClIT和AES-lII等先进的技术了。

  更先进的功耗管理

  在之前的Atom处理器上,英特尔也使用了很多功耗控制技术和频率控制技术,比如增加更多的功耗模式,使用英特尔的Tubro Boost技术等。但是这些技木所带来的效果比较有限,比如之前Atom的CPU核心就无法智能分配TDP,空闲的CPU核心无法将自己的TDP余量分配给忙碌中的CPU核心,能源管理还不够智能和高效。在Silvermont上,英特尔设计了独立的电源控制模块,它可以监控SOC芯片各个部分的温度和功率情况,并且根据需要动态地进行控制,这样一来,整个SOC的运行就处于可控状态。这样的优势是,整个SOC的TDP都可以灵活使用在忙碌的部件上。

  英特尔在Silvermont上实现了对CPU和GPU的联动控制,这有点类似Haswell的功耗控制技术。在工作时,Silvermont的功耗控制模块会智能判断究竟是CPU还是GPU在忙碌(因为CPU和GPU总是很难一起满载),然后将CPU或者GPU空余的TDP额度分配到忙碌的部分,这样CPU或者GPU就能在更高频率下工作并更为快速地完成工作任务。 除了这些内容,Silvermont还拥有C6模式,这个模式允许L2缓存处于保持状态,其余的模块都处于关闭或者深度休眠状态,从C6状态唤醒所需时间比较短,并且能更快地恢复至工作状态。

  性能预测

  有关性能的情况,英特尔宣称Silvermont至少和Cortex A--15育相同的单线程性能。在22nm工艺下,英特尔可以用相同的功耗带来大约1 8% - 37%的性能优势(这里的数据应该是相对于ARM阵营普遍使用的28nm技术)。英特尔目前的预期是Silvermont的实际产品将在2GHz-2.4GHz的频率上运行。

  更为实际一点预测Silvermont的性能,如果相比频率在1.6GHz-2.OGHz的老版本Atom,英特尔宣称Silvermont会带来50%的每核心IPC性能提升,如果算上频率又高了差不多30%,这样新版本的产品最高性能比老产品会高出80%(在不考虑功耗的情况下)。

  在之前的Atom处理器上,英特尔除了一开始使用自家的核心架构外,随后几代产品都是购买自PowerVR的SGX核心。不过在Bay Trail上,英特尔又用回了自家的第七代GPU核心——和Haswell上使用的集成显示核心有着同样的架构。Haswell中最低端的GT-I核心(英特尔高清显卡2000)拥有6个EU单元。在BayTrail中,这个数字被缩减至4个,每个EU单元有8个处理模块,这样就组成了SIMD32的处理阵列。频率方面,为平板设计的Bay Trail-T中,显示核心的频率下会高于667MHz。

  那么4个EU单元的性能水平大概在什么位置呢?以3DMark lce Strom为衡量手段的话,最新的iPad Air差不多拥有1 5000分的成绩,拥有16个EU单元的HD4000大概在45000分左右,这样推算下来,拥有4个EU单元的Bay Trail大概会徘徊在12000分左右。另外,Bay Trail-T的3D性能可能和iPad 4中使用的PowerVRSGX 554MP4的性能基本相当。

  对Bay Trail的实际性能测试,目前AnandTech有比较详细的测试报告。

  不过这些测试报告都是基于Bay Trail-T也就是给平板使用的版本,具体来说是1.46GHz的Atom 23770(四核心四线程)对比1.8GHz的Atom 22760(双核心四线程,支持超线程)。从测试结果来看,BayTrail-T的CPU性能还是一如既往让人满意,单线程性能大概达到了上代Atom的1.6 -2.0倍左右,多线程性能也有相当大的进步,浏览器性能更是差不多相当于上代Atom的3倍。GPU1生能方面,Atom23770大概和前文的预测相当,3DMarklce Strom差不多可以取得14000分,远远超出上代产品,基本上与AMD RadeonHD 63jl0相当。

  平板产品的性能基本清楚了,那么手机呢?虽然在手机上使用的Merrifield还没有消息,不过英特尔官方还是给出了Bay Trail与ARM SOC芯片的对比测试结果,主角依1日是Atom 23770。

  游戏性能上,Atom 23770的水平和其成绩基本对位,和高通骁龙800以及NVIDIA Tegra 4基本处于同一个档次(注意Tegra 4的分辨率是2560x1600,而英特尔和高通都是1920 x1080)。

  在一些理论测试中,Atom 23770的性能比高通骁龙800和NVIDIA Tegra4要强不少,不过除去频率优势后,同频率下Silvermont的性能表现应该和Cortex-A‘15基本相当。

  英特尔规划了一个全新的产品,并力求借Bay Trail来掌握未来移动处理器的发展方向。英特尔对Bay Trail的期许非常大,Bay Trail特成为2014年英特尔最重要的产品之_。

  那么它是否能一改英特尔在手持移动设备领域的颓势?在目前的移动设备市场中,可以看到采用英特尔芯片的平板和手机越来越多,特别是英特尔最近在华南厂商的开拓上取得了不小的成绩。不过我们也注意到市面上的产品依1日采用的是上一代Atom处理器,Bay Trail要在手机、平板上铺开,还需要等到2013年底或2014年第一季度。而我们从厂商获得的消息来看,Bay Trail处理器在价格上有些偏高,如果应用在国产平板上,产品售价会逼近2000元。从这点来看,它在第一时间更可能出现在手机和Windows 8变形本上。当然,随着成本的下降,它在国产安卓平板上铺开也会变得顺理成章。所以英特尔目前针对华南平板厂商的动作更多是在布局,为Bay Trail的全面铺开做准备。它能否成功,就要靠市场来检验了。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: