搅动移动GPU市场 解析ARM Mali-T800

  • 来源:微型计算机
  • 关键字:解析,GPU,ARM
  • 发布时间:2014-12-08 08:57

  近期,ARM发布了全新一代移动GPU架构—Mali-T800。作为移动计算世界CPU架构的执牛耳者,ARM的Mali系列从无到有,从小到大,渐渐有了赶超前辈的态势。那么,这一代架构有哪些亮点值得我们关注呢?

  ARM的Mali系列GPU目前已经成为许多移动设备的首选,虽然在技术上Mali和竞争对手相比并没有明显优势,但是考虑到ARM可提供包括CPU、GPU、编解码模块等SoC设计所需的所有模块,这种“一揽子”的销售模式促成了Mali系列的爆发式增长。

  在这种情况下,Mali系列的授权和销售数据就非常好看了。根据ARM的资料,Mali系列GPU现在已经有了100多份授权(2013财年增加了23个)、60多个合作伙伴,在2013年就卖出了超过4亿采用Mali GPU的产品。因此,ARM自豪地宣称自己的Mali系列已经成为安卓平台上市场份额第一的GPU。

  ARM在2013年11月就发布了最新的GPU架构“Midgard”,同期也推出了全新的Mali-T700系列,不过相关产品直到今天还没有任何S o c芯片使用。为了更清楚地了解Mali-T800系列,本文先简单介绍一下Mali-T700系列和Midgard的情况。

  Midgard架构和Mali-T700系列

  Midgard是ARM自主研发的全新GPU架构,相比前代产品,它的革新几乎是翻天覆地的。Midgard加入了众多新技术,包括独特的三管线设计、全新设计的着色器、新的纹理单元和像素单元配比、指令级并行、支持双精度和单精度计算,以及提供了对OpenGL ES 3.1、OpenCL 1.2、DirectX 11.1、Render Script Compute等API的全面支持。

  在拥有了Midgard架构后,将架构转化为产品并产生效益是ARM面临的又一个问题。ARM随之发布了Mali-T700系列产品,分别是Mali-T760和Mali-T720。

  Mali-T760面向高端,最多可以拥有16个着色器核心(Shader Core),每4个为一组,每个着色器核心有2个ALU单元。最顶级的Mali-T760MP16(MP16代表16个着色器)在600MHz的时候可以获得高达326G Flops的浮点计算能力。在28nm HPM工艺下,Mali-T760最高频率可达695MHz,此时的三角形填充率为1390Mtri/s,像素填充率为11.2Gpix/s。当然,如果用户不需要如此强悍的性能的话,Mali-T760也可以考虑使用更少的簇或者降低频率来实现规模缩减,比如Mali-T760MP8。

  面向低端市场的是Mali-T720,这款核心相比之前的Mali-T760缩减了不少。它的一个核心只有一个着色器ALU,最多拥有8个核心,也就是Mali-T720MP8,它在600MHz下的浮点性能仅为81.6GFlops,只有之前Mali-T760的四分之一。ARM还另外给出了一组数据,其中Mali-T720在28nm工艺下最高频率可达695MHz,此时(应该是Mali-T720MP8的成绩)的三角形填充率为695Mtri/s,像素填充率为5.6Gpix/s,分别只有之前Mali-T760MP16的一半。

  产品规划完毕,但是什么时候上市却成了难题。ARM推出Mali-T700系列已经接近一年,市场上几乎看不到采用这款GPU的产品。当时在发布会上,Mali-T700还是得到了很多厂商的捧场,比如联发科、瑞芯微、LG、三星等,但2014年他们推出的新品基本上使用的都是Mali-T600系列而不是Mali-T700。这一情况可以说既是意料之外,又是意料之中。所谓意料之中,是Mali-T700作为新一代架构,规模不可避免地放大,这就要求新工艺的支持。所谓意料之外,则是目前作为移动SoC主要代工厂商的TSMC工艺进展缓慢,产能严重不足。

  根据ARM提供的信息,Mali-T700可以使用28nm或20nm工艺,但是考虑到控制发热量等问题,真正投产时Mali-T760需要使用20nm或者16nm制程才能应用在移动处理器中,而这两个新工艺目前的情况都不乐观。眼下手持成熟的28nm工艺的厂商,只能退而求其次生产基于Mali-T600系列的产品。而且从现在的工艺发展和性能进步情况来看,即使到了2015年,新工艺的发展和应用速度依旧赶不上需求,这意味着如果工艺得不到满足的话,Mali-T700可能还得继续等待下去。那么,在这漫长的发展和等待中,ARM是否就无所事事?答案显然是否定的。2014年11月,ARM推出了全新一代Mali-T800系列GPU,脚步毫不停歇。

  Mali-T800:Midgard架构的大成之作

  Mali-T800系列的发布时间刚好在Mali-T700系列发布后一年。在这一年时间中,ARM对Mali-T700中的大量技术进行了改进和升级。从架构角度来看,ARM之前的Midgard架构尚未有一款实际产品上市,并且这个架构本身设计也没有什么问题,因此新的Mali-T800系列还是沿用了Midgard架构。相比之前的Mali-T700系列,ARM宣称Mali-T800系列的能效比相比Mali-T628最高提升可达45%。目前Mali-T800系列拥有三个型号,分别是Mali-T860、Mali-T830和Mali-T820。

  Mali-T860:面向高端市场,架构改进性能提升

  Mali-T800系列最引人注目的技术是10bit YUV输入输出以及ARM帧缓冲压缩技术。其中前者是新引入的,后者则是从Mali-T700上继承下来的。所谓10bit YUV,是指编码时的位深度从之前的8bit增加至10bit,它的优势在于压缩率更高,还原效果更好,视觉表现更出色。一般来说,8bit YUV数据转换成RGB后再解码的色彩相比8bit RGB的16.7M色彩要损失不少,效果明显不如原始8bit RGB,只有使用10bit YUV编码的数据经过转换后才能真正呈现16.7M色彩。10bit YUV主要是配合H.265/HEVC等新一代编码模式使用,而H.265/HEVC作为全新一代高清编码算法,肯定会在即将到来的4K时代得到大量应用,因此Mali-T800将其作为重点支持的对象就非常正常了。

  接着是ARM帧缓冲数据压缩技术,这项技术的全称是ARM Frame Buffer Compression,简称AFBC。其优势在于通过AFBC的处理后,可以大大节约GPU、VPU等单元的数据带宽,并且AFBC对数据的压缩是无损的。ARM的官方数据表明,AFBC对YUV这样的视频格式能带来高达50%的压缩比,在使用了AFBC技术后,能够有效降低功耗,降低数据流量,提升性能。AFBC在之前的Mali-T700上就已经得到了应用,在Mali-T800上ARM又开始更广泛地宣传,看来是打算将其作为行业标准培植了。

  看过了特色技术,下面来看具体产品,先说Mali-T860。Mali-T860可配置的最高着色器单元数量和Mali-T760相当,都是16个。Mali-T860的每个着色器核心拥有2条Midgard ALU流水线和1个纹理单元。核心配置也是可选的,在最低配置的情况下每周期可以执行10MAD操作,换算成性能就是20Flops(之前的Mali-T760是17Flops),纹理填充率是1个纹理像素/周期。最高情况下,配备了16个着色器单元的Mali-T860MP16每周期可以执行320MAD,即640Flops和16个纹理像素。在695MHz下,Mali-T860MP16的理论最大浮点性能可达444.8GFlops,三角形生成率为1390Mtri/s,像素填充率为11.2Gpix/s。它的整体性能除浮点性能外,其余和Mali-T760基本相当。

  在缓存配置方面,Mali-T860中每4个着色器可以配置256KB~512KB的缓存,最大可配置256KB(4个着色器使用最低配置)~2MB(16个着色器使用最高配置),厂商可以根据需求和芯片面积自行选择。此外,在API支持方面,ARM也一改之前全系列支持统一API的作风,目前只有Mali-T860才能够完整支持DirectX 11.1 Feature Lever 11_1。当然,其他诸如OpenGL ES 3.1、OpenCL 1.2、Render Script Compute等还是都支持的。

  Mali-T830:未来主力产品

  接下来就是Mali-T830了。Mali-T830是针对主流用户的产品,因此其架构和Mali-T860基本相同,也是每个着色器核心拥有2条Midgard ALU流水线和1个纹理单元,这样设计可以取得最佳的性能/面积比。ARM宣称其比Mali-T622最多快55%。不过相比高端的Mali-T860,Mali-T830最多只能集成4个着色引擎,相比Mali-T720最多8个着色引擎少了一半,这是不是意味着Mali-T830性能缩减了呢?

  显然不是。对Mali-T720这样面向中低端市场的产品来说,很少有厂商愿意集成8个核心,多数使用M P4。因此Mali-T720MP8存在的意义其实很小。况且如果真用了Mali-T720MP8,为什么不干脆使用Mali-T760MP4?两者ALU数量相同,区别只是前者拥有更多的像素填充单元而已,名字上Mali-T760显然更为“高大上”。因此,这次Mali在Mali-T830上干脆最多只允许集成4个着色器核心,严格区分了市场。从规格来看,Mali-T830MP4很可能是未来多数中端SoC的标准配置,它的性能足够,规格也不低,整体表现令人满意。至于中高端市场,全部交给Mali-T860来负责就好了,毕竟它可以存在从MP4到MP16的多种规格。

  需要注意的是,Mali-T830目前无法支持Direct X 11.1 Feature Lever 11_1,因此很可能并不具有曲面细分能力,毕竟在这个性能层次上配备这种需要强劲硬件支持的功能必要性不足。如果用户追求全规格和全功能,还是只能考虑更高端的Mali-T860。此外,Mali-T830的二级缓存配置也要比Mali-T860弱不少,二级缓存单个核心可配置32KB~128KB,最多可配置128KB~256KB。其他特性诸如AFBC肯定会有,而10bit YUV是可选特性,厂商可以根据自己的产品对H.265/HEVC的支持情况来选择。性能方面,官方给出的数据是Mali-T830MP4在6 5 0MHz下三角形生成率是400Mtri/s,像素填充能力是2.6Gpix/s。

  Mali-T820:实用就好

  最后则是Mali-T820。Mali-T820更像是Mali-T720的“马甲”,它们的核心配置都是每个着色器可配置1个算术流水线,也就是1个ALU单元和1个纹理单元,最多可支持4个着色器核心的配置。由于ALU减半,因此Mali-T820的核心面积更小、能耗更低,浮点能力损失很大。不过对三角形生成率和像素填充能力影响不大,官方公布的Mali-T820MP4在650MHz下的性能和Mali-T830MP4完全一样,都是三角形生成率为400Mtri/s,像素填充能力为2.6Gpix/s,略有误导嫌疑。

  除了核心架构的差异外,Mali-T820的其他技术和API支持等都和Mali-T830完全相同,在此不再赘述。

  小结

  总的来看,ARM此次发布的Mali-T800系列,与此前的Mali-T700使用了完全相同的Midgard架构,因此基本技术和规格是完全相同的,只是在产品等级划分上相比Mali-T700系列更为清晰准确,购买授权的厂商可以根据自己的需求推出更为合适的产品。对厂商来说,之前已经购买了Mali-T700的授权,但是现在还没有推出产品的话,很可能会重新定位在Mali-T800上,Mali-T700可能只会出现在较少的产品上,或者只在低端市场存在。Midgard这个架构本身伸缩性很强,规格支持也很全面,在ARM的调校下,未来可能会加入更多的新功能和技术来增强其市场竞争力,说不定再过一年我们又可以看到Mali-T900系列披挂上阵了。

  文 张平

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: