NVIDIA GeForce GTX480/470显卡详尽评测
- 来源:微型计算机 smarty:if $article.tag?>
- 关键字:显卡 smarty:/if?>
- 发布时间:2010-06-30 12:01
是的,Fermi终于来了,在上期杂志中我们已经提前对GeForce GTX 470显卡进行了预览。如今,老大哥GeForce GTX 480也抵达了微型计算机评测室,下面就让我们一起揭开Fermi神秘的面纱吧。
回首Fermi的发布历程,有用户戏称它是NVIDIA历史上让用户和业界等待时间最长的顶级显卡。从2009年9月30日NVIDIA在美国GTC大会上首次展示基于Fermi架构的Tesla高端产品(此时距离竞争对手正式发布首款DirectX 11显卡Radeon HD 5870已经过去一周);到2010年CES大会上Fermi的惊鸿一瞥;再到2010年1月17日NVIDIA高调宣布Fermi纸面发布......Fermi始终和大家玩着“躲猫猫”的游戏,不肯现身。就在大家都等得有些不耐烦的时候,甚至竞争对手AMD都已经完成了DirectX 11产品线的布局,Fermi终于在2010年3月27日从幕后站到了前台,走进了我们的视野,并向全世界大声疾呼:“我来了!”可Fermi究竟是王者终归来,还是在经历一次次跳票、面对舆论的压力仓促上阵呢?
是宿命?还是轮回?眼前的此番景象是那么的熟悉。
在显卡产品线更新换代之际,NVIDIA和AMD在基于全新DirectX API产品上的角力和你追我赶的大戏又一次上演了。遥想DirectX 10显卡上市阶段,NVIDIA快人一步,抢先发布了基于DirectX 10的G80系列产品。而AMD直至半年以后才推出相应的R600系列产品。而如今,历史正在重演,只不过故事的主角NVIDIA和AMD互换了身份。
面对这一切,我们不仅要问:“Fermi为何姗姗来迟?
背后都有哪些不为人知的秘密?面对竞争对手早已发布的DirectX 11产品和挑剔的玩家,Fermi又会拿出什么法宝与之争锋相对?”Fermi此次究竟是上演宿命的轮回还是涅磐重生,我们拭目以待!
你所不知道的GPU几何性能
在本文开篇之际,我们需要说明的是,本文的理论部分主要针对Fermi的图形架构和新增功能进行介绍。而有关通用计算介绍的部分请参考本刊2009年10月上杂志,在此不多做介绍。
在深入探讨Fermi以前,我们先来谈谈一直以来被大家忽视的GPU几何性能,因为它和Fermi的图形架构设计甚至是最终性能表现有莫大的关联——充分认识GPU的几何性能有助于我们进一步理解Fermi的图形架构设计理念。
游戏的发展永远是以真实为基础。在经历了DirectX和OpenGL的历代升级后,我们突然发现,3D游戏对光影、贴图的处理已经达到了非常精细的地步,各种各样的特殊贴图技术能够模拟凹凸不平的视觉效果,甚至能让平面贴图看起来充满立体感。但这一切依旧有点问题,比如为什么游戏主人公的头充满棱角?为什么肩膀看起来像个立方体?我们知道,游戏中的人物和物体都是通过建立3D模型以及对三角形的光栅化来实现的。理论上,我们只需要增加建模的精细程度,使用更多的三角形来完成图形构建就可以解决上述问题。可问题是,新增加的巨额3D几何运算由谁来完成呢?CPU?别指望了,尽管一直以来CPU都参与了大量的几何运算,但CPU的性能也是有限的,目前桌面电脑的CPU计算能力是难以承担如此大规模的三角形计算的。
即使多核心发展如此迅速,但在短期内,我们不可能看到一个场景模型使用几千万个三角形的情况出现。
期待GPU?更不用考虑了。过去由于几何计算不算太复杂,显卡一直使用的是一个前端控制模块辅助CPU进行几何运算,无法调动处理核心进行运算,几何运算能力非常有限。我们来看一组数据,几何性能从GeForceFX5800开始到GeForce GTX 285,五代时间只增长了300%,但期间像素处理性能却增长了1500%。在这种背景下,Tessellation处理应运而生,并被加入了DirectX11 API中。借助Tessellation,GPU可以让物体细节更加精细,趋于真实。但问题又来了,Tessellation是比较耗费GPU资源的,必须对现有图形架构进行调整,并增加专门用于Tessellation计算的模块。那么,针对Tessellation运算的新应用,Fermi的图形架构又做了哪些设计和改进呢?请参看我们下文的介绍。(有关GPU几何性能的跃进和Tessellation对游戏和图形处理的推动,近期我们将单独进行介绍,敬请关注。)
GF100全新图形架构一览
GF100被NVIDIA定义为新一代CUDA计算与图形架构,在GF100图形架构上,NVIDIA引入了GPC(Graphics Processing Cluster)图形处理器集群的全新概念,摈弃了过去的TPC(Texture Processing Cluster)概念。GF100由四组GPC构成,每组GPC内部包含了除ROP单元以外的SM阵列、PolyMorph Engine等基本图形运算单元,可以将顶点、几何、光栅、纹理以及像素处理资源进行有机整合。我们甚至可以将一组GPC看成是一个可以执行绝大部分指令的GPU核心,而GF100就由四个这样的核心组成。
需要说明的是,由于受到良品率、功耗和发热量问题的影响,首批上市的基于GF100的旗舰型号GeForceGTX 480并没有采用完整的GF100规格,其中一个GPC中的一组SM阵列被屏蔽,减少了32个流处理器和四个纹理单元。而GeForce GTX 470则是在GeForce GTX 480基础上再次屏蔽了一组SM阵列、一组显存控制器(位宽减少64-bit)而成,减少了64个流处理器、八个纹理单元和八个光栅单元,显存位宽为320-bit。而本文主要针对GF100的图形架构进行介绍。
对于GPC的创新性我们可以这样去理解,它有一个用于三角形的设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Ra s t e rEn g i n e,驻留在G P C中;它有一个用于提取顶点属性与Tessellation的可扩展PolyMor phEn g i n e,驻留在SM中。
下文将重点介绍Ra s t e rEngine和PolyMorph Engine,它们是将GF100的几何性能推向新的高度的关键部件,也是GF100架构的关键创新所在。
除此之外,GF100的纹理单元也进行了全新设计,和SM绑定,提升了效率;对ROP单元进行了改良,提升了抗锯齿性能;加入更多用于几何运算的关键部件,在Tessellation运算方面有突出表现;具备了改进型SPH解算器,能够让游戏开发者在游戏中加入高品质SPH流体效果并流畅运行,加入SPH效果的代表游戏是《雪域危机》;工作模式能够与光线追踪渲染轨迹同步,能循环进行工作,是首款全面支持光线追踪的桌面级显卡(在本文之后,我们将单独对GF100架构的深度技术进行介绍)。
决战DirectX 11之巅 GF100性能测试
接下来我们将进入精彩的性能测试部分,你将了解到GF100真实的3D、Tessellation、CUDA、PhysX方面的性能和功耗温度方面的表现,以及它和AMD Cypress之间的对比。究竟是研发时间短、风险小、通过相对简单核心规格堆积的Cypress性能出色?还是研发时间长、风险大、经过全新图形架构设计的GF100的性能更佳?我们将组建英特尔Core i7 965 Extreme平台进行测试,告诉你最详细和真实的的测试结果。
GF100的图形架构是专为DirectX 11优化设计的,NVIDIA也特别强调GF100的曲面细分、置换贴图性能以及几何性能的大跃进。那么这是否意味着GF100在包括《3DMark Vantage》在内的DirectX 10/10.1的游戏和软件测试中无法从Cypress那里讨到更多的便宜呢?为此,在3D性能测试方面,我们会选取《3DMark Vantage》、《生化危机5》、《孤岛危机》等五款热门的Di rectX10/10.1的游戏和软件对GF100的DirectX 10/10.1性能进行测试,来验证GF100是否为了满足几何性能计算的需要而弱化传统的纹理贴图、3D渲染方面的性能。当然对DirectX 11显卡而言,它的DirectX 11性能才是大家最为关心的话题。为此,我们将选取《地铁2033》、《异形大战铁血战士》、《Unigine Heaven Benchmark 2.0》、《Stone Giant》Demo等六款DirectX 11游戏和软件重点考查GF100在DirectX 11游戏和软件中的性能,看看它的DirectX 11执行效率究竟有多高?
上文已经提到,G F 1 0 0 在图形架构上专为Tessellation做了优化,理论上它的Tessellation性能应该非常强悍,我们也将通过《Unigine Heaven Benchmark2.0》和《Stone Giant》Demo这两款DirectX 11软件来重点验证Fermi的几何性能。《Unigine HeavenBenchmark》是首款支持DirectX 11的基准测试软件,类似于3DMark系列软件。该软件的测试场景中包含了大量基于Tessellation的测试画面,可以深度考查显卡的Tessellation性能。《Stone Giant》Demo与此类似,也加入了Tessellation测试场景。
在《Unigine Heaven Benchmark 2.0》的测试中,“DirectX 11+Shader(High)+Tessellation(Extreme)”表示显卡运行在最高画质、极致Tessel lat ion等级的DirectX 11模式下,这是考验显卡在极致Tessellation画面下的性能;“Di rectX 11+Shader (High)+Tessel lat ion(Disabled)”表示显卡运行在最高画质、关闭Tessellation特效的DirectX 11模式下,这是考验显卡在Di rectX 11模式下,关闭Tessellation特效后(此时Oc clusion等其它Di r e c tX 11特效仍然存在)对其它Di rectX 11特效执行的情况;“Di rectX10 +Sh a d e r (Hi g h)”表示显卡运行在最高画质的Di rectX 10模式下,这是考验显卡在Di rectX 10模式下的性能。通过这三种不同模式的测试,我们将对GF100的Di r e c tX 11性能,尤其是Tes sel lat ion性能一目了然。同理,在由NVIDIA提供的《St oneGiant》Demo的测试中,我们也将分为“TessellationOFF+Wireframe OFF”(Wireframe,即线框模式,开启此模式后将更为耗费GPU资源)、“Tessellation”和“Tessellation+Wireframe”三种模式进行测试,目的也是为了清楚地了解GF100的几何性能。
由于GF100的ROP单元被重新整合设计,在数量和效率上都有一定提升,再加上具备全局共享的L2缓存的帮助,理论上GF100的AA性能将有较大幅度提升,有望一改上一代GT200显卡在8xMSAA模式下性能不济的劣势。我们将通过不同等级的AA模式、尤其是NOAA与8xAA之间的性能对比来验证GF100的AA性能究竟有没有明显提升,理想的状态是显卡在打开AA后性能下降越小越好。在PhysX性能方面,我们将通过《雪域危机》以及《地铁2033》(虽然它是一款DirectX 11游戏,但同时也加入了PhysX引擎)来验证GF100的PhysX性能。
DirectX 10测试:Fermi仍然占据优势全新的图形架构设计让GF10 0不仅仅在更强调Tessellation性能的DirectX 11游戏中受益,在DirectX10游戏中亦有良好的表现。GeForce GTX 480在几乎所有的DirectX 10/10.1游戏测试中大幅超越RadeonHD 5870,根据不同的游戏领先幅度在12%~51%,而GeForce GTX 470则领先直接竞争对手Radeon HD5850 8%~43%。值得一提的是,在与更高级别的RadeonHD 5870的较量中,GeForce GTX 470与之互有伯仲,处于同一水平线上。GF100能够在不具备Tessellation运算、更强调纹理贴图和3D渲染的DirectX 10游戏中胜出,也从另一个层面反映出GF100在纹理单元上的改进是很成功的。虽然纹理单元不升反降,但它在和每组SM绑定以后,执行效率更高,借助专属的纹理单元缓存也进一步提升了GF100的纹理贴图性能。需要说明的是,借助双核心的优势,Radeon HD 5970领先低一级别的GeForceGTX 480/470的幅度还是很明显的。
……
回首Fermi的发布历程,有用户戏称它是NVIDIA历史上让用户和业界等待时间最长的顶级显卡。从2009年9月30日NVIDIA在美国GTC大会上首次展示基于Fermi架构的Tesla高端产品(此时距离竞争对手正式发布首款DirectX 11显卡Radeon HD 5870已经过去一周);到2010年CES大会上Fermi的惊鸿一瞥;再到2010年1月17日NVIDIA高调宣布Fermi纸面发布......Fermi始终和大家玩着“躲猫猫”的游戏,不肯现身。就在大家都等得有些不耐烦的时候,甚至竞争对手AMD都已经完成了DirectX 11产品线的布局,Fermi终于在2010年3月27日从幕后站到了前台,走进了我们的视野,并向全世界大声疾呼:“我来了!”可Fermi究竟是王者终归来,还是在经历一次次跳票、面对舆论的压力仓促上阵呢?
是宿命?还是轮回?眼前的此番景象是那么的熟悉。
在显卡产品线更新换代之际,NVIDIA和AMD在基于全新DirectX API产品上的角力和你追我赶的大戏又一次上演了。遥想DirectX 10显卡上市阶段,NVIDIA快人一步,抢先发布了基于DirectX 10的G80系列产品。而AMD直至半年以后才推出相应的R600系列产品。而如今,历史正在重演,只不过故事的主角NVIDIA和AMD互换了身份。
面对这一切,我们不仅要问:“Fermi为何姗姗来迟?
背后都有哪些不为人知的秘密?面对竞争对手早已发布的DirectX 11产品和挑剔的玩家,Fermi又会拿出什么法宝与之争锋相对?”Fermi此次究竟是上演宿命的轮回还是涅磐重生,我们拭目以待!
你所不知道的GPU几何性能
在本文开篇之际,我们需要说明的是,本文的理论部分主要针对Fermi的图形架构和新增功能进行介绍。而有关通用计算介绍的部分请参考本刊2009年10月上杂志,在此不多做介绍。
在深入探讨Fermi以前,我们先来谈谈一直以来被大家忽视的GPU几何性能,因为它和Fermi的图形架构设计甚至是最终性能表现有莫大的关联——充分认识GPU的几何性能有助于我们进一步理解Fermi的图形架构设计理念。
游戏的发展永远是以真实为基础。在经历了DirectX和OpenGL的历代升级后,我们突然发现,3D游戏对光影、贴图的处理已经达到了非常精细的地步,各种各样的特殊贴图技术能够模拟凹凸不平的视觉效果,甚至能让平面贴图看起来充满立体感。但这一切依旧有点问题,比如为什么游戏主人公的头充满棱角?为什么肩膀看起来像个立方体?我们知道,游戏中的人物和物体都是通过建立3D模型以及对三角形的光栅化来实现的。理论上,我们只需要增加建模的精细程度,使用更多的三角形来完成图形构建就可以解决上述问题。可问题是,新增加的巨额3D几何运算由谁来完成呢?CPU?别指望了,尽管一直以来CPU都参与了大量的几何运算,但CPU的性能也是有限的,目前桌面电脑的CPU计算能力是难以承担如此大规模的三角形计算的。
即使多核心发展如此迅速,但在短期内,我们不可能看到一个场景模型使用几千万个三角形的情况出现。
期待GPU?更不用考虑了。过去由于几何计算不算太复杂,显卡一直使用的是一个前端控制模块辅助CPU进行几何运算,无法调动处理核心进行运算,几何运算能力非常有限。我们来看一组数据,几何性能从GeForceFX5800开始到GeForce GTX 285,五代时间只增长了300%,但期间像素处理性能却增长了1500%。在这种背景下,Tessellation处理应运而生,并被加入了DirectX11 API中。借助Tessellation,GPU可以让物体细节更加精细,趋于真实。但问题又来了,Tessellation是比较耗费GPU资源的,必须对现有图形架构进行调整,并增加专门用于Tessellation计算的模块。那么,针对Tessellation运算的新应用,Fermi的图形架构又做了哪些设计和改进呢?请参看我们下文的介绍。(有关GPU几何性能的跃进和Tessellation对游戏和图形处理的推动,近期我们将单独进行介绍,敬请关注。)
GF100全新图形架构一览
GF100被NVIDIA定义为新一代CUDA计算与图形架构,在GF100图形架构上,NVIDIA引入了GPC(Graphics Processing Cluster)图形处理器集群的全新概念,摈弃了过去的TPC(Texture Processing Cluster)概念。GF100由四组GPC构成,每组GPC内部包含了除ROP单元以外的SM阵列、PolyMorph Engine等基本图形运算单元,可以将顶点、几何、光栅、纹理以及像素处理资源进行有机整合。我们甚至可以将一组GPC看成是一个可以执行绝大部分指令的GPU核心,而GF100就由四个这样的核心组成。
需要说明的是,由于受到良品率、功耗和发热量问题的影响,首批上市的基于GF100的旗舰型号GeForceGTX 480并没有采用完整的GF100规格,其中一个GPC中的一组SM阵列被屏蔽,减少了32个流处理器和四个纹理单元。而GeForce GTX 470则是在GeForce GTX 480基础上再次屏蔽了一组SM阵列、一组显存控制器(位宽减少64-bit)而成,减少了64个流处理器、八个纹理单元和八个光栅单元,显存位宽为320-bit。而本文主要针对GF100的图形架构进行介绍。
对于GPC的创新性我们可以这样去理解,它有一个用于三角形的设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Ra s t e rEn g i n e,驻留在G P C中;它有一个用于提取顶点属性与Tessellation的可扩展PolyMor phEn g i n e,驻留在SM中。
下文将重点介绍Ra s t e rEngine和PolyMorph Engine,它们是将GF100的几何性能推向新的高度的关键部件,也是GF100架构的关键创新所在。
除此之外,GF100的纹理单元也进行了全新设计,和SM绑定,提升了效率;对ROP单元进行了改良,提升了抗锯齿性能;加入更多用于几何运算的关键部件,在Tessellation运算方面有突出表现;具备了改进型SPH解算器,能够让游戏开发者在游戏中加入高品质SPH流体效果并流畅运行,加入SPH效果的代表游戏是《雪域危机》;工作模式能够与光线追踪渲染轨迹同步,能循环进行工作,是首款全面支持光线追踪的桌面级显卡(在本文之后,我们将单独对GF100架构的深度技术进行介绍)。
决战DirectX 11之巅 GF100性能测试
接下来我们将进入精彩的性能测试部分,你将了解到GF100真实的3D、Tessellation、CUDA、PhysX方面的性能和功耗温度方面的表现,以及它和AMD Cypress之间的对比。究竟是研发时间短、风险小、通过相对简单核心规格堆积的Cypress性能出色?还是研发时间长、风险大、经过全新图形架构设计的GF100的性能更佳?我们将组建英特尔Core i7 965 Extreme平台进行测试,告诉你最详细和真实的的测试结果。
GF100的图形架构是专为DirectX 11优化设计的,NVIDIA也特别强调GF100的曲面细分、置换贴图性能以及几何性能的大跃进。那么这是否意味着GF100在包括《3DMark Vantage》在内的DirectX 10/10.1的游戏和软件测试中无法从Cypress那里讨到更多的便宜呢?为此,在3D性能测试方面,我们会选取《3DMark Vantage》、《生化危机5》、《孤岛危机》等五款热门的Di rectX10/10.1的游戏和软件对GF100的DirectX 10/10.1性能进行测试,来验证GF100是否为了满足几何性能计算的需要而弱化传统的纹理贴图、3D渲染方面的性能。当然对DirectX 11显卡而言,它的DirectX 11性能才是大家最为关心的话题。为此,我们将选取《地铁2033》、《异形大战铁血战士》、《Unigine Heaven Benchmark 2.0》、《Stone Giant》Demo等六款DirectX 11游戏和软件重点考查GF100在DirectX 11游戏和软件中的性能,看看它的DirectX 11执行效率究竟有多高?
上文已经提到,G F 1 0 0 在图形架构上专为Tessellation做了优化,理论上它的Tessellation性能应该非常强悍,我们也将通过《Unigine Heaven Benchmark2.0》和《Stone Giant》Demo这两款DirectX 11软件来重点验证Fermi的几何性能。《Unigine HeavenBenchmark》是首款支持DirectX 11的基准测试软件,类似于3DMark系列软件。该软件的测试场景中包含了大量基于Tessellation的测试画面,可以深度考查显卡的Tessellation性能。《Stone Giant》Demo与此类似,也加入了Tessellation测试场景。
在《Unigine Heaven Benchmark 2.0》的测试中,“DirectX 11+Shader(High)+Tessellation(Extreme)”表示显卡运行在最高画质、极致Tessel lat ion等级的DirectX 11模式下,这是考验显卡在极致Tessellation画面下的性能;“Di rectX 11+Shader (High)+Tessel lat ion(Disabled)”表示显卡运行在最高画质、关闭Tessellation特效的DirectX 11模式下,这是考验显卡在Di rectX 11模式下,关闭Tessellation特效后(此时Oc clusion等其它Di r e c tX 11特效仍然存在)对其它Di rectX 11特效执行的情况;“Di rectX10 +Sh a d e r (Hi g h)”表示显卡运行在最高画质的Di rectX 10模式下,这是考验显卡在Di rectX 10模式下的性能。通过这三种不同模式的测试,我们将对GF100的Di r e c tX 11性能,尤其是Tes sel lat ion性能一目了然。同理,在由NVIDIA提供的《St oneGiant》Demo的测试中,我们也将分为“TessellationOFF+Wireframe OFF”(Wireframe,即线框模式,开启此模式后将更为耗费GPU资源)、“Tessellation”和“Tessellation+Wireframe”三种模式进行测试,目的也是为了清楚地了解GF100的几何性能。
由于GF100的ROP单元被重新整合设计,在数量和效率上都有一定提升,再加上具备全局共享的L2缓存的帮助,理论上GF100的AA性能将有较大幅度提升,有望一改上一代GT200显卡在8xMSAA模式下性能不济的劣势。我们将通过不同等级的AA模式、尤其是NOAA与8xAA之间的性能对比来验证GF100的AA性能究竟有没有明显提升,理想的状态是显卡在打开AA后性能下降越小越好。在PhysX性能方面,我们将通过《雪域危机》以及《地铁2033》(虽然它是一款DirectX 11游戏,但同时也加入了PhysX引擎)来验证GF100的PhysX性能。
DirectX 10测试:Fermi仍然占据优势全新的图形架构设计让GF10 0不仅仅在更强调Tessellation性能的DirectX 11游戏中受益,在DirectX10游戏中亦有良好的表现。GeForce GTX 480在几乎所有的DirectX 10/10.1游戏测试中大幅超越RadeonHD 5870,根据不同的游戏领先幅度在12%~51%,而GeForce GTX 470则领先直接竞争对手Radeon HD5850 8%~43%。值得一提的是,在与更高级别的RadeonHD 5870的较量中,GeForce GTX 470与之互有伯仲,处于同一水平线上。GF100能够在不具备Tessellation运算、更强调纹理贴图和3D渲染的DirectX 10游戏中胜出,也从另一个层面反映出GF100在纹理单元上的改进是很成功的。虽然纹理单元不升反降,但它在和每组SM绑定以后,执行效率更高,借助专属的纹理单元缓存也进一步提升了GF100的纹理贴图性能。需要说明的是,借助双核心的优势,Radeon HD 5970领先低一级别的GeForceGTX 480/470的幅度还是很明显的。
关注读览天下微信,
100万篇深度好文,
等你来看……