一脸经典范儿!NVIDIA GTX 1080显卡深度品评
- 来源:微型计算机 smarty:if $article.tag?>
- 关键字:NVIDIA,显卡 smarty:/if?>
- 发布时间:2016-07-01 14:09
今年GTC上,NVIDIA展示的GP100核心令人震惊,新工艺加新架构,使其核心集成度达到惊人的153亿晶体管规模,并启用了HBM2显存、NVLink总线等一系列先进技术。无论是计算效率还是规模,都堪称全球楷模。但如我们所预料的那样,由于这个架构主要针对行业用户开发,太过在意双精度计算能力,且成本不菲,而导致它在游戏应用中的效率、性价比并不那么出众,所以它暂时不会出现在桌面显卡上。那么问题来了,NVIDIA将拿什么来更新桌面显卡产品线,取代Maxwell架构的经典地位?NVIDIA给出的答案是GTX1080……
GTX 1080何许人物?
熟悉NVIDIA显示核心的资深玩家应该对NVIDIA显示核心的命名习惯不陌生,通常每一代产品的顶级核心都被命名为Gx100/200整数,比如Maxwell架构时代的GM200(第二代Maxwell架构,所以是200而非100)对应GTX 980Ti和GTXTITAN X,由此可以推测GP100应该是这代基于Pascal架构的顶级核心。只不过近几年,受限于工艺更新速度、市场竞争状况等综合因素,NVIDIA在桌面产品迭代时,已经不再采用一步到位的策略。而是习惯先发布新系列的甜点级核心,依靠出色的能耗比、良品率、性价比等优势来迅速完成对老产品的取代。这类甜点核心一般都被命名为Gx104,就像Kepler架构时代GK104核心的GTX 680,以及Maxwell架构时代的GM204核心的GTX980。它们都在性能上超越了上代架构的顶级显卡,所以在相当长一段时间内客串了“旗舰”的角色。而我们今天将要介绍的GTX 1080就是一款使用了GP104核心的产品,在我们看来它也应该是一个即将客串一段时间旗舰的甜点产品。
最缺新技术的甜点?
和前几代产品顶级核心与甜点核心在技术、工艺、特性和底层架构设计上基本一致不同,这一代Pascal架构的产品有些特别。基于Pascal架构的顶级核心GP100已经用上了HBM2显存、NVLink总线等先进技术,而GP104核心却依旧是款使用GDDR显存的产品,而且没有高速连接的NVLink总线。在NVIDIA的角度,GDDR5X在GDDR5的基础上进一步优化了带宽性能和功耗,已经足以满足甜点产品的性能需求。而桌面应用对高速互联的需求应该远不及专业计算强烈,所以NVLink也非必需品,自然是能省就省,为玩家提供高性价比。但站在玩家的角度难免没有抱怨或疑惑,缺少高级技术是否会限制核心性能发挥?这样的GTX 1080还能不能成功客串旗舰,带来让人足够信服的表现?
新架构加上新工艺给你足够信心!
其实抛开HBM2显存和NVLink总线这些外围技术,就GPU核心的工艺来说,GP104和顶级的GP100一样,都使用了台积电最新16nm FinFET Plus工艺制造。相比之前一直使用的2 8 nm工艺,台积电宣称16nm工艺在同等功耗下性能可以提升40%,或者同等性能下功耗降低50%。在MC此前的GP100对比GM200核心的解析文章中,我们已经分析过,相比之前28nm的Maxwell架构,Pascal借助16nm工艺,在晶体管密度上实现了88%的巨大提升。实际上对比这几款核心的技术参数,玩家们会轻松发现GP104的晶体管数量逼近了上代顶级的GM200,但是核心面积却只有后者的约60%,新工艺功不可没。众所周知,半导体芯片的实力基础就是制造工艺,很多时候同代产品的竞争输赢就在工艺的优劣上。所以就这一点来说,GP104作为当前第一款基于16nm先进工艺制造的游戏GPU,相比自家的Maxwell和对手目前的产品,无疑具有先天优势。除了密度还有一个伴随工艺而来的优势—芯片工作频率,我们看到GP104的核心基础频率就已经高达1.61GHz,boost频率更是达到了1.73GHz。相比起竞争对手约1GHz左右的频率,或者自家上代Maxwell显卡1.1GHz左右的频率,GP104的频率提升幅度超过了40%,这足见新工艺的威力。
熟悉显卡的玩家都知道,同架构下,芯片频率基本与性能成线性正比关系,这也是玩家们超频追求高性能的直接原因。这意味着即使GP104的底层计算核心不做任何改变,在同计算规模下,它的性能也会是上代产品的1.4倍左右。这个提升幅度已经非常让人满意,但很显然,NVIDIA并不满足于此,因为GP104的核心架构改进相比Maxwell架构也是相当明显的。组织结构上保留了几代以来的GPU- GPCSMs的大框架,一个GP104核心内部有4个GPC模块,这个比例倒是和GTX 980使用的GM2 0 4核心一样。不过当时每个GM20 4核心的GPC模块内只有4组SMs,每组SMs内设计了128个CUDA计算核心。与之相比,GP104的每组SMs具有的CUDA计算单元依旧是128个,但每个GPC模块内的SMs数量增加了一组达到5组。所以整体的CUDA单元数量就由GM204的2048个大幅提升到2560个,逼近了上代顶级产品GTX 980Ti内含2816个CUDA的规模。
不过这里我们需要注意一个关键技术点,即CUDA核心的运算类型。若读者还记得我们之前的GP10 0技术介绍文章的话,当记得GP100的核心规模,达到3840(FP32 CUDA)+1920(FP64CUDA),总计5760个CUDA的恐怖规模。在此,我们暂时不提GP104的计算核心规模与GP100的对比。先重点看FP32和FP64这两个描述,这是区分CUDA是计算单精度数据还是双精度数据的说法,但在GP104上NVIDIA并没有强调这种称谓,所以我们猜测GP104的所有CUDA都是针对单精度计算的FP32。因为对游戏应用而言,还没有双精度计算的用武之地,而双精度的FP64单元无论是晶体管占用还是功耗、发热量上都非常“可观”,所以NVIDIA完全没有必要为只针对游戏市场的显卡设计FP64单元来降低能耗比。也因为此,GP100和GP104核心的底层架构设计其实是差距悬殊的。GP10 0的GPU内部包含了6个GPC单元,每个GPC内集成了夸张的10组SMs模块。与之相比GP104的GPC减少到了4个,每个GPC内的SMs也腰斩到5组。更重要的是每个SMs模块内的CUDA单元设计差距明显,由于FP64单元无论是功耗还是晶体管消耗都比FP32高出许多,所以GP10 0的一个SMs内只配备了6 4个FP32 CUDA加32个FP64 CUDA,总CUDA数量其实只有92个。而GP104的每个SMs具备128个CUDA,数量多出1/3,非常适合密集图像处理的游戏计算,功耗控制也相对更容易。而功耗控制得力,也正是促成GP104核心能工作在1.7GHz高频的一大功臣。
GDDR5X并不是绣花枕头
说到GTX 10 80,想必不少高端玩家会觉得其没有搭配HBM显存是一大遗憾,毕竟竞争对手的上一代显卡就已经使用了这种技术。HBM1代就展示出了超高位宽的优势,HBM2更是弥补了容量上不足的缺陷,按理说已经非常成熟。但GTX1080却没有使用,这毫无疑问是基于产品成熟度之外的考虑,在我们看来无非两点:1是HMB2的成本、良率或者产能达不到需求;2是GTX 1080还不需要这么高的带宽。看GTX 1080的官方数据我们发现NVIDIA只为它设计了256bit的显存位宽,这是相当小的规模,甚至不及上代GM200的384bit。在计算规模相当、计算核心频率大幅提升后,GP104核心对显存的需求理论上是高于GM200的,不启用HMB2就不说了,怎么能在原来GM200的基础上不升反降?实际上NVIDIA重新设计了显存控制器,配合上PCB针对显存走线的优化,让GDDR5X的等效频率从GDDR5时代6000MHz左右的水平,突飞猛进到10000MHz。而且在显存压缩算法上,Pascal架构更加彻底,综合压缩率提高后节省了约20%左右的带宽。综上所述,在同位宽的情况下,GDDR5X在GP104上的带宽表现是GDDR5在GM200上的约1.7倍。所以仅256bit位宽GP104,拥有高达320GB/s的显存带宽,算上压缩优化,其等效性能理论上比拥有384bit位宽的GM200还强。不过考虑到计算规模接近,且计算效率的提升,整体计算能力上GP104是超过GM200的。所以我们依旧怀疑GTX 1080的显存有可能存在性能瓶颈。而NVIDIA最终如此安排,肯定是考虑包括能耗比、性价比之后的综合决定,我们无法单独就此确定它的好坏,只能在之后的实际测试环节中去体会和进一步分析、验证。
不可小觑的渲染技术集群
几乎每一代新G PU架构发布时,NVIDIA都会伴随新架构更新诸多软件,或是底层开发相关的辅助工具,或者是高级的算法更新,总之都是为了更好地为图形计算服务。这次也不例外,总体来说依旧是创新加更新的方式,既有全新的内容,又有对过往技术的优化升级。
硬件多重投影引擎—SMP
VRWorks无疑是伴随这代Pascal架构而来的重点软件技术创新,其中有关图形渲染的重点则是SIMULTANEOUSMULTI- PROJECTION(简称SMP,硬件多重投影)。SMP可以让Pascal架构的GPU渲染基于16个不同角度的画面,并根据需求分别呈现。为了高效率地实现多角度画面同步投射,NVIDIA不仅更新了算法,还在Pascal架构GPU中集成了SMP硬件引擎模块,每组SMs一个,在GP104内就拥有20个之多。SMP究竟有什么用,需要NVIDIA在软、硬件上如此重视?这其实就是之前NVIDIA宣称GTX 1080能强到GTX 980Ti两倍的关键。而这还得从渲染应用说起。
在VR兴起之后,我们的图形渲染势必要从单一显示器画面向双眼画面各自呈现过渡。这其中涉及到画面切割、画面畸变、画面多角度投射的问题。NVIDIA优化了有关镜头畸变的算法,能够减少40%左右的无用(不会显示在头盔视野里)图形渲染。更重要的是,NVIDIA借助SMP,实现了Single PassStereo这一重要功能。SPS能够让原本需要分别渲染的左右眼画面,简化到只需要渲染一个眼睛所见的画面,另一画面由SMP硬件单元通过特定的算法合成。此时,SMP具有硬件、软件协作的高效率开始发挥作用。多角度引擎,让另一角度画面的合成几乎不再额外消耗显卡计算资源。如此一来,在VR头显上输出同样的两幅画面,GP104的工作量低至一半,帧率自然可以大幅度提升,最高近2倍。当然,SMP的优势不仅如此,在对畸变的处理上也有裨益,能够降低多连屏或曲面屏用户面临的画面拉伸问题,可以根据需要,更真实地模拟人眼环视效果。
ACE终成正果?
动态负载平衡(DYNAMIC LOAD BALANCING)AMD和NVIDIA对于异步运算(Asynchronous Compute)的支持程度,曾在上一代架构上经引爆一场口水战。大意是说只有AMD架构支持硬件ACE,而NVIDIA的Maxwell架构对ACE不支持,至少支持是不完善的。尽管后来NVIDIA有辟谣称Maxwell是支持异步运算的,问题出在驱动上。但不论什么原因,在《奇点灰烬》、《杀手6》等支持异步运算的游戏中,基于Maxwell架构的显卡确实在DX12的性能表现上落后于AMD的GCN架构的。在Pascal架构上,NVIDIA宣称弥补了这个问题,并强调Pascal架构原生支持异步运算,包括基于GPU的物理加速、音频处理、渲染帧的后期处理以及VR中的异步时间扭曲算法中都可以用到异步运算。但NVIDIA并没有给出什么实际的测试数据来支撑,反倒是在动态负载平衡(DYNAMIC LOAD BALANCING)的原理上费了一番口舌。不得不说,新的动态平衡机制赋予了Pascal架构更灵活的处理能力,无论是图形渲染,还是计算相关的任务都能够互不影响。任务拆分、并行计算本就是异步运算的精髓,从这一点来看新的Pascal架构无疑比Maxwell强了不少。至于在DX12环境中,是否能体现出比GCN更强的效率提升,则有待之后的实际性能对比测试中来为大家揭晓。
GPU Boost 3.0
在以往的Boost 2.0上,NVIDIA提出了根据功率动态调整频率的设计,在当时看来这是已经是非常先进的方式,尽可能地维持GPU的高频率。但由于这个机制太过线性,导致GPU在各个电压点上,没有办法最大程度地挖掘潜力。而Boost 3.0就是针对此项进行了改进,它可以设置各个电压点的频率偏移,使频率偏移与单个电压点一一对应。这样就可以使GPU的频率达到每个设定电压点下能挖掘的最大值,压榨出GPU的所有剩余性能。
Fast Sync
同步技术近几年来一直是两大显示器厂商关注的重点,之前N V IDI A和AMD都在着手解决垂直同步在帧率上不够流畅、不够灵活的问题,这个问题随着G- Sync等技术出现后可谓迎刃而解。但在关乎流畅度体验的另一个维度—延迟上,两家厂商之前的技术都没有有效优化。伴随Pascal架构,NVIDIA推出了针对延迟优化的Fast Sync,能将画面延迟优化到接近不开启同步技术的水平,整体延迟在20~40ms间,比之前开启同步后,延迟基本在85~105ms之间的表现出色太多。更重要的是,这个技术可以结合G- Sync技术搭配使用,享受延迟和帧率上的双重流畅。
像素级抢占
任务抢占在NVIDIA以往的架构中早已诞生,意在随时终止非紧急任务,让计算单元第一时间完成紧急、重要的工作,确保关键任务的优先完成。不过在Pascal架构之前,所有GPU能做到的任务抢占精度都只能到任务级别,在任务内就没法进一步划分了。而Pascal架构则进一步优化了抢占机制,让GPU能处理像素级别的抢占需求。这个看似微小的改变,却能让Pascal 架构在VR应用中更好地应对转头动作。它能够第一时间集中尽可能多的计算资源,优先处理转头后需要渲染输出的改变像素,确保画面切换延迟足够低,保证VR体验不带给用户眩晕、呕吐的负面影响。
不务正业的GTX 1080?
以上,无论是技术创新还是技术改进,都意在增强显卡的图形处理能力,算是NVIDIA的本质工作。不过在此以外,NVIDIA还为Pascal架构搭配了一系列看起来并不那么契合本质工作的新特性。我们的第一感受是相当好玩,接下来则是赞叹NVIDIA的未雨绸缪,因为其中不少新技术都在围绕未来的热点VR展开。
好玩的ansel
首先是一个名为ansel的有趣软件,说它是软件其实不太对,NVIDIA对它的描述是定位于驱动层和游戏软件之间的中介程序。它主要有6大功能:Free Camera,可以让玩家跳出固定视角,在任意位置观看游戏画面。能把第一人称场景都变成位置可以任意变化的第三人称。
Filters,是后期滤镜处理技术。
EXR,可以让你在构图后,重新定义色温,比如白天还是黑夜、背景色彩等。
Super REZ,则是一种超高精度的截图功能,允许最多32倍于原图的放大,而不失高清晰度。这解决了游戏截图难以满足高分辨率需求,或者局部构图难以达到高分辨的问题。让游戏中创作的图像作品也能达到印刷级的精度。
至于360度回放,则是为了满足以后环幕或VR眼镜的需求,让画面可以适应弧形变化后而不产生视觉畸变。
好吧,你要问我ansel的意义的话,我倒真心觉得这是NVIDIA为艺术类玩家开发的新玩具。实际上在很久以前,就有不少本职专业摄影师的游戏玩家提出这种需求,他们需要更好的工具来实现游戏中的艺术创作,而不是简单的截图。很显然,NVIDIA的ansel给了他们这个机会。而且其创作灵活性甚至比现实世界更高,现实中去不了的取景点它也能完美驾驭。实际上,ansel的名字就来自伟大的摄影师Ansel Adams,为照顾艺术家们而生的意图显露无疑……目前,如《全境封锁》、《巫师3》等已有不少游戏宣布支持ansel,更重要的是NVIDIA宣称支持ansel基本没有难度,NVIDIA已经完成了功能开发,游戏开发商只需加入简单的少量代码就能支持。
让“ 虚拟” 更“现实” 的VRworks Audio+Touch
VR是未来新焦点,从上代Maxwell架构开始,NVIDIA就已经在图形计算上针对VR的需求优化,这一次Pascal架构发布,更是推出了VRWorks开发包。前面我们已经说过它有关图形渲染的功能,实际上它还包含了音频拟真技术VRWorksAudio。其借鉴了光线追踪渲染的思路,实现虚拟场景中的声音追踪,可以模拟声音在场景内的互动映射、反射等等,仿真出现实中声音碰到障碍物的效果,让你听到的声音更准确地契合VR场景,让沉浸体验更加逼真。
当然,要营造身临其境的VR体验,光有视觉和听觉还不够,还要有触觉才能实现三位一体。所以我们看到VRWorks开发包中,还基于成熟的PhysX物理加速引擎,提供了对VR场景內的触觉交互,比如通过手柄传达给用户的震动、偏移、阻尼等等。譬如在VR中切气球,轻轻地触碰气球会有真实的气球回弹的感觉。
早在GTX 1080还未正式发布时,就已经有人曝光它的一部分规格和配置。其中相当让人在意的无疑是真空腔均热板(Vapor Chamber)散热器的使用。真空均热板技术对NVIDIA来说并不陌生,在NVIDIA的公版卡设计上,已经用了很多代,至少5代之前的GTX580上我们就已经见识过。只不过在我们的印象中,NVIDIA都只会在TDP功耗较高的旗舰产品上启用该技术,以便物尽其用。而在TDP功耗不到200W的甜点产品上,则少有如此奢华的设计。GTX 1080应该是第一个有此殊荣的个例,我们觉得这跟NVIDIA力推公版显卡公开发售有关。在此前的产品更新中,公版显卡都只是NVIDIA用来向合作伙伴展示产品,提供开发、设计参考的DEMO。大多只在厂商和媒体圈中流传,少有入市销售。但实际情况是有不少发烧友对非公版,包括超公版产品并不感冒,反倒对公版产品情有独钟,这给了NVIDIA卖公版产品的极大动力。再加上当前DIY整体量能萎缩,实力稍小的厂商已经无力支持产品线的非公版开发,NVIDIA提供贴牌就能卖的公版产品也不失为一个可行之法。所以从这代GTX 1080开始,我们看到NVIDIA特意推出了一个命名为GTX 1080 Founders Edition的版本。这就是此后各家厂商都会贴牌出货的型号,与之对应,NVIDIA还设计了一个功能类似之前只具参考价值的公版产品,在料件规格、频率设定等关键部位上都和Founders Edition有所区别。MC拿到的,自然是GTX 1080 Founders Edition版本,也就是玩家最终能在市场上买到的型号。根据NVIDIA的说法,这款型号从设计、选料到生产,都是NVIDIA一手炮制的,能保证原厂品质。坦白说,就散热器结构上,我们并不看好公版显卡的侧吹设计,在热交换性能和噪音控制上相比多风扇的下压设计并不占优。但好在均热板用料给GTX 1080加分不少,想必仅此一项就能俘获不少公版忠实Fans。接下来为了进一步搞清楚Founders Edition的设计和用料究竟如何,我们对它进行了拆解。
通过分析PCB,我们能感受到2个非常明显的信号:1、8GB显存绝对不是GTX 1080的上限;2、NVIDIA给厂商预留了相当大的供电增益空间,非公版在超频上的潜力值得期待。为何这么说?我们能够看到当前GTX 1080 Founders Edition的显存使用了来自美光的GDDR5X,其最大特点是电压仅1.35V,等效速度高达10Gbps,同时密度高达8Gb,只需要8颗就组成了公版卡8GB的显存规格。所以我们看到GTX 1080只需启用核心周围的正面PCB空间,就能轻松布置显存,而核心背面的PCB是闲置的。按照以往厂商设计非公版的情况,在背面添加显存让显存容量翻倍,是最容易实现的超公版规格。而且在未来的高精度贴图应用中,超大显存容量也很有可能是个值得力推的卖点。其次,仔细看公版GTX 1080的供电设计,能发现其原始设计规模应该是4+2+1,但最终定型的产品却只启用了4+1+1,相比之前GTX980使用的4+1强上一些,但明显不及GTX 980Ti上使用的6+2规模。而且GTX 1080的每一项供电的MOS管都有虚焊位,就料件的“质”来说,高品质贴片电感、钽电容等是没什么值得挑剔的,但就“量”来讲,对一张售价超过5000元的显卡来说显然难以让人满意。对虚焊位有强迫症的发烧友来说,只有期待厂商设计的超公版来弥补了。而且对喜欢超频的玩家来说,向来都希望供电系统越强越好,公版这种够用就行的设计思路显然也不太对他们胃口。
另外,有个值得注意的小细节,在无意中查看到接口部分时,我们发现GTX 1080在接口数量上虽和之前的中高端公版卡一样,启用了3DP+HDMI+DVI的配置,但并没有为之匹配模拟型号电路和输出转换。简而言之,在GTX 1080的DVI接口上,并不能转接VGA接口模拟接口输出,即使搭配转接头,也不会有信号。坦白说,我们也不觉得能消费GTX 1080的玩家还会使用模拟接口输出。与之相比,三个DisplayPort接口都使用1.4规范,HDMI也是2.0规格更值得玩家们关注。HDMI 2.0和DP 1.4都是各自规范中的最新规格,与之前的接口相比,最大的改进就是带宽翻倍,使GTX 1080支持最高8K的分辨率,可以在1080P和1440P分辨率下,输出240Hz的超高刷新率;即使是4K分辨率,也能达到120Hz,满足未来超高清显示器、VR眼镜的同步需求不在话下。
从理论上分析了新架构、新工艺的优秀,从技术上介绍了GP104如此多新特性,但最终是否能为玩家带来足够出色的体验,还得看它的实际游戏性能。那么其表现究竟如何?尤其是针对上代Maxwell架构遇到的DX12负优化难题是否能在Pascal架构上得到解决?又是否能延续Maxwell时代建立起来的NVIDIA显卡就是高能耗比的口碑?接下来,我们在当前玩家最常使用的酷睿i7 6700K平台上,对GTX 1080和近两代旗舰显卡做了同平台对比测试。
测试看点:
1、真能超过GTX 980Ti一倍?
2、显存带宽是否是瓶颈?
3、Direct X12能否实现正向优化?
4、新工艺、新核心能耗比究竟如何?
确实干掉了GTX TITAN X!
好了闲话少说,先让我们从最常见的基准测试软件说起。3DMark FireStrike是当前最能反映显卡游戏图形计算性能的测试软件,而且具有较为明显的前瞻性,能够较好地展现架构的先进性,对当前和近期即将发布的游戏都具有极高参考价值。其中又根据分辨率要求,划分了适合1080p参考的Extreme模式,和适合4K超高清参考的Ultra模式。
在3DMark FireStrike Extreme中,GTX1080获得了超过1万分大关的成绩,这已经达到目前桌面单显卡的纪录级水平,以往是只能通过极限超频达到的。与之相比哪怕是上一代最顶级的GTX TITAN X也只能获得8000分左右的成绩,被GTX 1080超越了20%以上。接下来的4K分辨率的3DMark FireStrike Ultra模式中,GTX 1080保持了相对GTX TITAN X的领先幅度,依旧获得超过20%的优势。这值得注意,因为相对GTX TITAN X,GTX 1080的显存带宽在物理规格上应该是出于劣势的,但没有在测试中成为拖累整体表现的瓶颈,至少说明压力如3DMarkFireStrike Ultra还不能成为它的瓶颈。在计算能力提升,而显存带宽不升反降的情况下获得高分辨不打折扣的优势,足见NVIDIA优化之后的显存压缩技术确实能起到节省带宽,变相提升带宽的作用。这一点,不仅在理论测试中获得了证实,在接下来的游戏实际体验中,也依旧表现出不打折扣的领先优势。比如在DX11时代,著名的硬件杀手《Crysi s3》中,GTX 1080能在1080p分辨率下领先GTX TITAN X约15帧,幅度约21%;在分辨率提高到4K后,领先的帧率有所降低,只有5帧左右,但领先比例反而升高到了23%。由此可见在游戏应用中,显存压缩算法的价值是相当明显的,不仅没有因为物理带宽降低成为GTX 1080瓶颈,反而还因此获得高分辨率耐压能力更好的优势。至于另外三款游戏《Far Cry 4》、《全境封锁》和《GTA5》的表现基本和理论测试软件吻合,只有一点值得我们注意,那就是在4K超高清分辨率下,终于有单卡能真正流畅运行这些大作了。GTX 1080在测试中全程最低帧都没有跌破30fps,是目前唯一能做到此点的单芯显卡。
Vs R9 Fury X胜利完全没有悬念,且为NVIDIA的4K表现正名
在面对当代GTX TITAN X时,GTX 1080不仅体现出了计算性能上的优势,还在高分辨率下展现了NVIDIA全新显存压缩算法的优秀。不过,当GDDR5X加显存压缩算法,遇上高带宽的HBM之后呢?GTX 1080在面对以分辨率越高越勇猛的R9Fury X时表现如何?仔细对比分析两者的性能测试成绩,我们得出的结论是GTX 1080终于为N卡的高分辨率表现正名了。作为对比的基础,还是首先说说1080p。在这个分辨率下,GTXTITAN X都可以大幅度胜过R9 Fury X,所以GTX 1080毫无压力,在3DMark FireStrike中获得了领先超过R9 Fury X40%以上的表现,两者完全属于两个不同的档次。接下来在分辨率提高到4K之后,R9 Fury X也没有再展现出面对GTX TITAN X时的绝地逆袭,依旧被GTX 1080超越了24%左右。不过在此我们还是觉得应该重视R9 Fury X的表现,虽然它被远远超越,但分辨率提高后,GTX 1080的领先优势却大幅度减小。从这里依旧可以看出HBM显存高带宽的先天优势,绝不是GDDR5X加显存压缩技术就能完全弥补的,R9 Fury X的落败其实是在计算性能上与新的GP104差距太大。鉴于此,我们其实更加期待随后的Pascal架构真正的旗舰,那应该是款搭配HBM2显存,计算能力相比GP104更进一步提高的产品,其在超高分辨率下的表现才真正能够体现出A、N显卡在计算能力之间的线性差异,十分值得期待。
当然,游戏上,更是没有太多可说的,在大多数开发商在游戏开发是更愿意接受NVIDIA的技术支持的背景下,NVIDIA相比AMD的领先优势只会比理论测试更加突出。可以看到在我们选择的4款游戏中,GTX 1080相比R9 Fury X的的领先优势比理论测试更高,在《Far Cry 4》这款使用了NVIDIA GameWorks技术的游戏中,领先幅度甚至超过了100%。其他几款游戏的领先优势,也多在25%~60%之间,平均领先幅度达到了50%,在我们习惯的性能对比划分中,确实属于两个档次的对比。
Vs GTX 980Ti不可能翻倍
在对比完GTX TITAN X之后,还有必要单独谈GTX 980Ti吗?其实这关系到NVIDIA官方宣称“GTX 1080比GTX980Ti强1倍”这个梗。更重要的是,相比GTX TITAN X只有公版设定的状况不同,GTX 980Ti开放非公设定之后,厂商们开发出了相当多高频率的超公版产品,在频率设定上超越了GTX 980Ti公版20%,甚至更多。在我们以往的测试中,GT X980Ti公版相比GTX TITAN X的整体落后幅度还不到15%。而且在Maxwell上,性能和频率基本呈线性关系,所以市场上的超公版GTX 980Ti在性能上其实超过了GTX TITAN X,更是会影响对比结果。
其实就公版GTX 980Ti只落后GTX TITANX不到15%,而GTX 1080领先GTX TITANX不超过30%看,GTX 1080想达到GTX 980Ti两倍性能就是妄想。无论加不加入超公版产品,都不会影响我们GTX 1080不可能相比GTX980Ti性能翻倍的判断。但特意加入超公版产品,则能真实显示GTX 1080在市场中的性能水平。我们给GTX 1080找的对手是GTX 980Ti超公版中的楚翘—华硕STRIX GTX 980Ti水冷版。实际对比发现,GTX 1080性能占优毫无悬念,它完全能在主流游戏中获得超过STRIXGTX 980Ti 15%的领先优势,但距离性能翻倍显然差距甚远。那么NVIDIA官方是在胡吹了?其实这跟我们在前文中说道的多重投影技术和SMP硬件引擎有关。在面对VR眼镜这种分屏应用时,GT X1080能在特定环境中,渲染GTX 980Ti一半的画面。结合上相比GTX 980Ti公版卡,超过40%性能提升的事实,GT X1080确实能在特定环境下,获得2倍于GT X980Ti的性能表现。很显然,官方并没有食言,只是存在断章取义,或者以点盖面的诱导性宣传嫌疑,玩家们不必为此介怀了。实际上就换代来说,GTX 1080的性能已经超过了上代GTX 980约一倍,两张GTX 980 SLI也不是GTX 1080的对手。这在近几年的显卡产品换代上,已经是少有的大跨度进步了。
DX12终于不再负优化!
在Maxwell时代,NVIDIA相比竞争对手,在产品能耗比和绝对性能上,都占据着明显优势。只有在DX12有关的对比中,因为ACE支持力度不佳的问题,导致同比DX11性能不升反降的尴尬。也因此屡遭对手挑衅,也被不少玩家诟病。所以,即使在常见的游戏中优势明显,也总有一种没有大获全胜的挫败感。这一代Pascal宣称优化了异步运算性能,那么GTX 1080在对异步运算支持得非常到位的《奇点灰烬》中又究竟会有怎样的表现呢?
《奇点灰烬》由微软协助开发,对DX12 API的精髓可谓把握到位,是当前对异步计算支持得最好的游戏。在以往,《奇点灰烬》就是N卡的滑铁卢,即使在DX11模式下占尽优势,也会在DX12模式下被对手逆袭。这一次,我们依旧分别测试了GTX 1080和R9 Fury X等显卡在该游戏中,DX11和DX12的各自表现。值得庆幸的是,GTX 1080在同比之中的DX12环境下,终于获得了超过DX11的性能表现。仔细分析对比测试成绩,GTX 1080在DX12模式下成功超越了R9 Fury X约14%。而同环境的DX11模式下,其领先幅度却高达40%。可以发现,相比于AMD R9 Fury X从DX11到DX12的巨大提升,GTX 1080获得的提升幅度明显小得多。这应该还是ACE模块的问题,AMD在ACE上做足了功夫,R9 Fury X核心内拥有8组硬件ACE模块,其优势看来不是短期内能够被超越的,至少GP104还不行,不知道Pascal架构旗舰级的核心是否有能力赶超。当然,比起自家上一代Maxwell架构的产品,从DX11到DX12时性能不升反降来说,GTX 1080却实实在在通过DX12获得了8%左右的提升,一升一降之间,差异就非常明显了,进步确实是有的。这意味着Pacal架构在异步计算上的优化绝非子虚乌有,而且效果也是显而易见的。
能耗比或是其最大利剑
性能测试告一段落,其实相比性能,我们更关心的是Pascal架构能否延续NVIDIA在Maxwell时代建立起来的能耗比优势。能耗比已经受到越来越多的玩家关注,开始成为左右显卡消费的重要因素。GP104使用了先进的16nm工艺,优化了核心架构,其表现究竟如何?我们用FurMark拷机工具考验了GTX 1080,发现GPU满载时,平台功耗仅230W左右,竟只比GTX 980同平台的功耗稍高,远低于GTX TITAN X同平台343W的功耗,也远低于对手R9 Fury X约380W的高功耗。不过NVIDIA历来有在FurMark测试中严格限制显卡功耗的传统,所以这个测试获得能耗指标只能是参考,并没有纳入我们的能耗比计算中。我们的能耗比是在运行3DMark软件时根据平台最终成绩和平台功耗的比值决定的。可以看到,基于新工艺和新架构的GTX1080在能耗比上相对上一代旗舰显卡获得了几乎翻倍的表现。毫无疑问,这绝对是GTX 1080相对当前旗舰显卡的一大杀手锏,也绝对是买新不买旧的最大理由。
只不过让我们颇感意外的是,在拥有如此高能耗比的同时,GTX 1080的散热性能却并没有明显改善。满载时,其核心温度达到83℃,基本和之前的GTX980Ti、GTX 980处于一个水平。而且相比GTX980来说,GTX 1080还有均热板的辅助,怎么会还高出1℃呢?在测试完各平台的噪音表现后,我们释然了。GTX1080的散热器在满载时的噪音相比GTX980低了近10dB。在我们以往的测试中,同散热性能噪音每降低3dB以上就是一个性能档次。由此可见,GTX 1080的散热器比GTX 980更优秀是没有悬念的,只不过NVIDIA这次相比散热性能更看重显卡的噪音表现,毕竟从这一代显卡开始,公版卡将会上市销售,而不仅仅为测试而生。所以NVIDIA采取了使用体验上优化,散热性能上能够满足需求就好的策略。
超频2GHz竟手到擒来
从1GHz出头的核心频率突然跳到1.7GHz,新工艺带给我们的冲击不小。那么NVIDIA是不是已经将新工艺的潜力消耗殆尽了?为此我们尝试了对GTX 1080简单地超频,结果却相当惊人,不需要太复杂的设置和电压调节,我们手中的GTX 1080核心频率就能轻松运行在2GHz(GPU-Z显示核心频率达到2.07GHz)。此时,3DMark FireStrike Ultra成绩进一步提高到5517分,比默认频率高出10%左右。要知道,在28nm时代,要想核心频率超过2GHz,还必须通过极限散热手段才能达到目的。而在GTX1080上,公版风冷就能完成,相当让人吃惊。相信接下来的超公版显卡中,我们一定能看到不少频率高得让我们惊讶的型号,尤其是采用水冷散热的版本。不过值得注意的是,对极限超频玩家来说,NVIDIA对核心电压的管控越来越苛刻不是一件好事,在我们的尝试中,常用的超频软件都不能调节GP104的核心电压,要想通过极限超频冲击新纪录的玩家必须要做好硬改准备。
MC点评:
在显示核心半导体工艺滞留28nm的5年时间里,我们被迫习惯了显示核心升级时,只有架构优化,没有半导体工艺升级的状况。很显然,这种旧瓶新酒的方式,缺乏之前工艺和架构同步升级时的酣畅淋漓。而这一代Pascal架构的更新,重新赶上了工艺、架构同步升级的火箭,带来的自然是产品在性能、能耗比等各方面都极具冲击力的优秀表现。而且从我们浅尝辄止的超频体验中,我们已经感觉到了16nm工艺的强悍,以及其难以预见的频率潜力,未来的超公版产品无疑会在频率上做足文章。实际上从GTX 1080宣布上市后,一卡难求,甚至需要加价购买的火热程度上,已经可以看出用户们对它的认可。就算接下来NVIDIA会推出基于Pascal架构的真正桌面级旗舰,也绝对影响不了GTX 1080已经铸就的经典地位,和甜点级核心与生俱来的吸引力。我们预测,GP104核心绝对会是一颗生命周期相对较长,且在生命周期中都将持续活跃的经典GPU核心。
文、图/《微型计算机》评测室