英特尔Huron River移动平台首发测试

来源:微型计算机
关键字:英特尔Huron River,移动平台
发布时间:2011-02-15 12:57

　　Huron River平台技术亮点解析

　　按照惯例，代号为Huron River的英特尔新一代移动平台主要由几个部分组成：代号为SandyBridge的处理器，代号为Congar Point的芯片组，以及Rainbow Peak、Taylor Peak和Kilmer Peak三款无线网络模组。

　　GPU与CPU的完美融合

　　代号为Sandy Bridge的处理器无疑是名气最大的。这款处理器是继英特尔Westmere之后的第二代整合GPU的处理器，它将GPU完全融合到了处理器设计中，在外观上回归到传统的单晶片模式。英特尔也把这种创新性的结构命名为“核芯”显卡，与之相比，Westmere将GPU和CPU分开设计的双晶片模式只是历史长河中的昙花一现。

　　由于完全融合到一起，它的晶体管数量达到了9.95亿个。无论是CPU部分还是GPU部分均采用了32nm工艺制造，这比前一代GPU核心采用45nm工艺有所进步。即便如此，Sandy Bridge的核心面积依然达到了214mm2。从英特尔公布的官方照片来看，硕大的核心晶片极为醒目地位于基板表面。在半导体行业中，核心晶片面积越大，产品的良率越难提升，任何微小的瑕疵都将导致处理器报废。这也就不难理解在上一代产品中，英特尔为何未将GPU和CPU融合在一起了。毕竟，在新工艺刚开始应用时，良率本身就处于一个调整阶段，再贸然加入更多功能导致核心面积大幅增加，质量问题恐怕将会是一个巨大的噩梦。

　　合二为一，说起来简单做起来难。为了提高运行效率，英特尔在Westmere架构的基础上进行了大幅的改进，以使CPU和核芯显卡能够更加和谐地运行。为此，英特尔在Sandy Bridge中引入了环形总线结构，将CPU核心、核芯显卡及其他功能模块分列于三级缓存周围，每个功能模块均通过环线总线与共享的三级缓存相连。从而大大降低了访问缓存的延迟，提升了数据吞吐带宽。另外一个优点则是核芯显卡也借此实现了对三级缓存的直接访问，而不必事无巨细均绕道访问速度慢得多的内存，显然也有助于性能的提升。

　　说了这么久的核芯显卡，它的正式命名为IntelHD Graphics 3000。它的架构与Westmere所采用的Intel HD Graphics相同，同样支持DirectX 10，并包含了12个统一架构的EU执行单元。不过，它拥有更大的寄存器文件，并通过第二代并行分支提升了执行并行任务与复杂着色指令的能力，其单位时间指令吞吐量比上一代产品提升了一倍。

　　睿频加速2.0，智能计算的关键

　　早在Nehalem架构中，英特尔就开始提出“按需计算”的概念。在这个方向的指引下，英特尔的工程师们着力在多个方面解决这个问题，睿频加速的雏形就是在这个时候形成。而在Westmere架构中，睿频加速技术得到了进一步的发展，频率提升的幅度更大，操作也更加智能。

　　与以往相比，Sandy Bridge的睿频加速2.0有几个主要的变化：首先，根据型号的不同，睿频加速2.0提升的频率分别达到了700MHz~1.1GHz，最高可以达到3.5GHz的单核心运行频率。其次，在以往的睿频加速中，无论如何加速，都需要保证实际功耗不高于TDP设计功耗。而在睿频加速2.0中，这个界限首次被打破。换言之，如果应用需要，睿频加速2.0有可能会提升所有核心的频率，使之在短时间内超出TDP设计功耗，此时，系统仍然可以稳定运行。这在临时运行某些计算密集型应用时尤为有用。以2.3GHz的酷睿i7 2820QM为例，它甚至可以在四核心同时运行时将频率提升到3.1GHz。不过，这一功能并不是所有型号都具备。第三，以往的加速仅包含对CPU的加速，并不包括集成GPU；睿频加速2.0则将核芯显卡包含到加速过程中。核芯显卡能在对图形性能要求苛刻的游戏或软件应用中自动提高频率，从而增强性能，此时处理器核心则会适当降频。借助睿频加速技术，处理器核心和核芯显卡能够自动分配性能。例如，软件需要更多CPU资源，那么CPU就会加速，同时GPU减速，反之亦然。

　　此时，核芯显卡的频率可由默认的650MHz迅速上升到1350MHz，频率提升幅度达一倍多！目前，移动市场主要的入门级显卡GeForce 310M和ATI Mobility Radeon HD 5470的核心频率分别为1530MHz和750MHz。至少从规格上，英特尔的核芯显卡已经具备了取代入门级独立显卡的能力。实际的状况如何？不要着急，稍后我们就会来解答这个问题。

　　SandyBridge也同样继承了优秀的电源管理技术，以达到按需降低功耗的目的。现在，它的三级缓存也已经与CPU核心同步，在需要时可以降频工作以降低功耗。在Westmere架构中，处理器集成的GPU由于采用了45nm工艺，能耗不容忽视。SandyBridge通过融合及工艺升级的手段大幅降低了功耗。再加上针对多线程应用的超线程技术，SandyBridge能够保证在任何时候都在性能和能耗之间实现最优化的表现，英特尔把它称为“智能”处理器是完全能够站住脚的。

　　核芯显卡够给力

　　除了封装形式改进，以及睿频加速2.0所带来的性能及功耗上的优势，核芯显卡在功能和特性上也添加了许多全新的功能，使得核芯显卡的功能更为广泛。

　　作为核芯显卡的第一款产品，Intel HD Graphics3000具备高速视频同步技术（Quick Sync Video）。英特尔通过在核芯显卡内置入MFX并行引擎，为核芯显卡增加了H.264和MPEG2的硬件编码功能。当针对这几种视频进行视频格式转换时，高速视频同步技术将显著降低处理器占用率，并大幅提高编码速度。

　　一直以来，3D显示这个近年来最为热门的话题之一似乎都和英特尔没有什么关系。核芯显卡终于赶上了时代，HD Graphics 3000新加入的引触3D视觉技术（InTru 3D）使它具有了蓝光3D MVC硬件解码功能，并支持HDMI 1.4，从而使英特尔平台实现了对1080p立体3D蓝光的支持。再加上用于为H.264/VC1/MPEG2高清视频硬件加速的IntelClear Vide HD，使用核芯显卡的用户完全可以体验到丝毫不逊于独立显卡平台的高清视频应用体验。

　　暗藏玄机的AVX指令集

　　英特尔在Sandy Bridge中引入了一个全新的指令集，即AVX指令集。从数目上看，这个指令集仅有6条。然而，仔细分析后，现在看似不太起眼的AVX指令集的背后其实凸显了英特尔的野心所在。AVX指令集，即Advanced Vector Extensions，字面的意思是高级矢量扩展指令集。它主要针对密集型浮点运算，3D游戏、CAD/CAM、数字内容创建等应用是这类计算的代表。在浮点计算性能增强的同时，AVX也沿用了现有的MMX/SSE指令集。不过它从指令格式上就发生了很大的变化，与以往的扩展指令集有明显区别。可以这么说，AVX并不是x86 CPU的扩展指令集，而是可以实现更高的效率，使SSE指令接口更加易用，并且也有着足够的扩展空间。换言之，英特尔试图通过AVX来摆脱传统x86架构的不足。

　　AVX支持256位矢量计算是其最具革新的设计部分，同时也代表了指令编码格式的变更。自1999年SSE将矢量处理能力从64位提升到128位后，直到如今，SSE系列指令集都只能支持128位矢量计算。AVX则开创了一个全新的格局，理论上最高可以将每秒浮点操作数提高一倍。另外，AVX还使用了新的256位函数，在操作和排列中效率更高，存取数据速度更快。不过要使用AVX指令集，需要CPU在硬件上做出改变。为此英特尔为SandyBridge核心增加了多个256位端口，用于处理AVX指令，浮点寄存器也彻底更改为256 位，保证AVX指令的全速运行。AVX编码格式的另外一个重点就是有着强大的指令集扩展支持，对于同样命令长度的指令也更加容易实现，这样就使不断增长的命令兼容需求变得更加容易。加上Sandy Bridge所带来的融合了乘法的双指令支持，从而可以更加容易地实现从256位向512位乃至1024位的扩展。

　　不过，目前暂时没有软件与操作系统可以支持AVX指令集，只有等到Windows 7 SP1发布以后，我们才能逐渐体验到AVX的强大威力。AVX扩展指令包含了SSE指令，这也有助于像AVX时代的过渡。日前在SSE和AVX格式之间虽然需要进行编译转换，但并不绝对。同时，出于整体的考虑，英特尔对于AVX的普及并不会太过迅速，并且也不会立刻停止SSE时代。

　　除了现实意义，更加重要的是，AVX的编码系统解决了x86架构在解码能力上的不足，从某一侧面上反应了英特尔处理器今后的进化趋势。目前的x86架构为了增强长命令而增设的缓存，使fetch命令长度更长，加上RISC架构的命令格式，命令长度难以缩减；并且，更加复杂的命令格式也由此产生。虽然可以改进解码能力，但x86架构必须以牺牲资源为代价，同时也带来了电力的额外消耗。因此，在改进硬件设计的同时，必须要改进指令格式本身。AVX指令集自然是最行之有效的手段。AVX使得浮点运算能力加强，不光提升了3D游戏，还可以更有效地支持矢量图形，如更复杂的flash显示，更快的SVG（可伸缩矢量图形）支持，更好的HTML5效果等等。与GPU加速相比，AVX几乎不会增加功耗和晶体管，成本要小得多，算是英特尔对不断侵蚀CPU领域的GPU通用计算作出的回应。事实上，一直迟迟未能面世的“Larrabee”处理器也会采用AVX指令集，这就不难勾勒出英特尔对AVX所寄予的厚望了。

　　芯片组的新特性

　　与Sandy Bridge处理器搭配的芯片组则是代号为“Cougar Point”的HM67芯片组。作为桌面6系芯片组的移动版本，HM67也支持PCI-E 2.0总线，这就意味着它的PCI-Ex1通道将具备单向5GT/s（500MB/s）的带宽。HM67总共提供了8条PCI-E x1通道，并且可以将多条x1通道灵活配置为x2或者x4通道。

　　与桌面版一样，HM67将支持14个USB 2.0接口。稍微有些遗憾的是，USB 3.0仍要等到下一代产品才会得到支持，目前高端笔记本电脑多通过第三方芯片的方式对USB 3.0予以支持。不过，HM67提供了2个SATA 6Gb/s接口，另外还包含6个SATA 3Gb/s接口。

　　Huron River移动平台除了继承了上一代Calpella平台的几种无线网络模组外，还新加入了RainbowPeak无线模组。由此，Huron River平台包含了多种不同定位的无线网络模组。自从英特尔放开对移动平台的无线模组限制后，第三方厂商凭借几乎不相上下的性能和更低的价格迅速在市场上成为了主流。英特尔则改变了相应策略，从以往的强行搭配变为以更为丰富的应用模式来吸引笔记本电脑厂商的采用。Huron River也支持WiDi无线显示技术，利用无线网络来传输视频信号。

　　Huron River平台性能体验

　　我们在第一时间获得了英特尔提供的两台基于Huron River平台的笔记本电脑工程样机。17英寸的样机搭配了酷睿i7 2820QM四核处理器，并搭配了英特尔的SSD，代表了Huron River平台的最强性能表现。14英寸的样机则搭配了酷睿i5 2520M，代表了主流定位产品的性能表现。两台笔记本电脑的主要配置如上表所示。作为对比，我们也在上一代产品中选择了两款与之相当的产品进行对比，分别是酷睿i7 820QM和酷睿i5 520M。

　　CPU子系统测试

　　先来看看专门针对C P U部分的测试，我们在这里主要选择了专门针对CPU测试的软件，包括CINEBENCHR11.5、SiSoftware Sandra 2011C以及3DMark Vantage的CPU测试来对比新旧CPU的性能。需要说明的是，为了突出CPU测试，我们选择的是对GPU压力较小的3DMark Vantage的Entry模式。

　　在这几项专门针对CPU的测试中，基于Sandy Bridge架构的两款处理器比上一代产品有较为明显的提升。可以看到，CINEBENCH R11.5的性能提升大致在一倍左右。在3DMark Vantage的CPU测试中，新一代处理器的得分已经非常接近上一代处理器与GPU加速混合的水平了。而在偏重理论测试的SiSoftSandra 2011C中，差距更加明显。尤其在加密解密测试中，新一代产品也有相当出色的表现，比不支持AES指令集的产品有明显的提升。

　　GPU子系统测试

　　在加入了新工艺和诸多新技术的保驾护航后，大家一定对英特尔的核芯显卡（即Intel HD Graphics 3000）的性能有所期待。我们主要测试了3DMark Vantage、《生化危机5》和《街头霸王Ⅳ》几种应用。为了测试新的高速视频同步技术的作用，我们也加入了支持该技术的MediaEspresso 6的转码测试。除了与上一代的Intel HD Graphics进行对比，我们也把Intel HD Graphics 3000与目前笔记本电脑上应用最广泛的入门级独立显卡—NVIDIA GeForce 310M进行对比。

　　尽管我们已经有了心理准备，但当实际结果出来后，还是让人相当震惊。HDGraphics 3000在3DMark Vantage中的表现比入门级独立显卡还要强劲；相比上一代自家产品，更是有足足一倍多的提升。如果更为严谨，排除CPU进步的因素，单看3DMark Vantage的GPU得分，这个增幅也相当可观。就实际应用体验来看，在两款代表主流水平的DirectX 10游戏中，Intel HDGraphics 3000已经可以在1366×768这个目前笔记本电脑最流行的分辨率下以低画质甚至中画质特效流畅运行了。

　　在转码测试中，高速视频同步技术发挥了巨大的优势。具备该技术的核芯显卡转码速度比不具备该技术的上一代集成GPU足足快了5倍之多。更令人印象深刻的是，即使与耕耘多年的NVIDIA CUDA架构相比，核芯显卡的转码速度也要更快。不过唯一缺憾是，目前支持该技术的软件还不够丰富。

　　系统综合性能

　　笔记本电脑毕竟不是单个配件，因此，处理器的更新对于系统在实际应用中的响应有何提高也是我们关注的要点。我们在这里采用SYSmark 2007 Preview和PCMarkVantage测试系统综合性能。

　　新一代移动平台的综合性能比之前有一定提高，但增幅并不像子系统提升幅度那样大。这并不难理解，一方面，Sandy Bridge与Westmere相比，在核内架构上变化并不大，每个核心包含总共64KB的一级缓存（32KB指令缓存和32KB数据缓存）和256KB的二级缓存，共享的三级缓存容量仍然还是8MB；只是在频率上有所增加。另外一方面，SYSmark 2007 Preview尽管对应用环境的模拟度仍然是目前最高的，但毕竟距离发布已经有几年时间，软件版本已经略有过时，一些最近的新技术并不能得到充分应用。当然，借助SandyBridge四核处理器和SSD的帮助，17英寸样机那高达279分的SYSmark成绩和轻松破万的PCMarkVantage得分已经代表了目前移动平台上的最强性能水平。

　　电池续航力

　　老实说，由于工程样机采用的均是针对高性能定位的四核处理器，从以往的经验来看，我们并没有对电池续航力抱以太大的希望。然而，让我们无比震惊的事情发生了：搭载了酷睿i7 2820QM的工程样机在Mobilemark 2007中足足坚持了342分钟，也就是6个多小时！是的，你没有看错，我们也没有弄错—由于时间紧迫，我们在测试过程中会不断查看测试状态，以便在测试完成的第一时间开始下一项测试。所以，我们确信它没有出现异常情况。这台样机的电池容量并没有特别离谱，71Wh的电池容量与目前同尺寸机型的电池容量相当。另外一点，按照往常的经验，即使17英寸机型的电池容量更大，但考虑到尺寸更大的屏幕和性能更强的CPU，17英寸机型的电池续航力能跟14英寸机型持平就已经让人惊叹不已了。然而，14英寸样机的电池续航力却仅有250分钟。我们认为这与14英寸样机采用了入门级的独立显卡，且无法切换到核芯显卡有关。实际情况究竟如何，在收到足够的样本分析后，我们会在后续对此再做深入分析。

　　MC点评 Huron River移动平台的测试结果相当惊艳，不单是CPU部分有了明显的性能提升，核芯显卡与前一代产品相比更是堪称脱胎换骨。不仅如此，由于采用了新的结构和工艺，整个处理器的功耗得以明显减少。在“智能”和“视觉”两大要素上，英特尔甚至做得比我们期待的更好。我们完完全全可以确定，就产品端而言，Huron River是那种让人从内心深处想要拥有的产品。

　　虽然自从处理器厂商提出将GPU与CPU整合在一起计划的时候，业界就一直大呼“狼来了”。不过，英特尔的上一代处理器整合显卡的性能离预期尚有差距，GPU厂商并未感到太大的压力。然而，SandyBridge的核芯显卡注定会在移动市场掀起一场暴风。不单是因为核芯显卡的性能和功能特性不输于入门级独立显卡，在电池续航力上核芯显卡也显露了优势所在，最为关键的是，在具备所有这些优势以后，核芯显卡相对于入门级独立显卡反而具有成本上的明显优势。我们实在想不出笔记本电脑厂商还有任何理由来选择现时的入门级独立显卡。NVIDIA和AMD两大GPU厂商在移动市场毫无疑问将受到英特尔的强力挑战，移动显卡市场的格局恐将发生巨大的变化。

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容