精进不休 厚积薄发
- 来源:微型计算机 smarty:if $article.tag?>
- 关键字:兆芯开先,KX-5000,处理器 smarty:/if?>
- 发布时间:2018-05-31 09:45
从兆芯开先KX-5000看国产x86处理器的成果与意义
2017年年末,当很多人已经放下手中的工作准备好好过一个元旦假期的时候,中国的科研人员却带来了一个重磅消息—12月28日,上海兆芯集成电路有限公司正式发布了本刊之前曾多次报道,基于Wudaokou处理器架构,代号为ZX-D,正式型号为兆芯开先KX-5000系列的国产新一代x86处理器。我们知道目前各种家用PC、服务器里的处理器都是基于x86架构,来自英特尔或AMD的产品,那么我国自行研发的这款x86处理器到底具备怎样的实力?当用户已经有大量国外产品可以选择时,打造自己的x86处理器是否还有意义?
打造国产x86处理器的必要性
都说习惯成自然。相信当你用电脑浏览这篇文章时,用电脑玩《绝地求生》时,又或者撰写各种办公文件、代码时,肯定不会觉得所用的电脑有什么问题。然而在中国计算机科研人员的眼中,这可能会有一种无奈。因为几乎所有的x86电脑里,处理器都是外国货。这并非是一种狭隘的爱国主义,而是对一种产业出现缺失的遗憾。当各位DIY玩家在互相比拼是你的英特尔处理器好还是我的AMD处理器好时,可能都没有想过,我国一年需要进口多少处理器,会花费多少外汇。国家核高基专项技术总师、清华大学微电子所魏少军所长在发布会上谈到了这个问题。
尽管我国集成电路在过去几年当中应该说取得了重大的进步,但对存在的问题,也应该有很大的警觉。魏少军所长谈到一个典型的例子就是中国每年仍花费巨额资金进口集成电路,2017年全年进口集成电路达到2500亿美元。如果认真分析一下进口结构就会发现,CPU在其中占了很大比例。2000多亿美元当中与CPU相关的进口,大概在550亿到600亿美元。显然这个数值对于中国的集成电路产业来说,不仅是一个巨大的损失,更意味着集成电路产业发展的不健全,在处理器领域长期受制于人。
另一方面,对于中国这个拥有世界最多人口,并在政治、经济、科技、国防各个领域都有突出发展的大国,在信息技术方面长期依赖进口产品也是一个安全隐患。为此我国在2006年就设立了核高基项目。核高基是对核心电子器件、高端通用芯片以及基础软件产品的简称,是2006年国务院发布的《国家中长期科学和技术发展规划纲要(2006-2020)》中与载人航天、探月工程并列的16个重大科技专项之一。
魏少军所长表示核高基专项是国家中长期科学技术发展规划当中的第一个专项,也是称之为01专项,01专项解决的问题简而言之就是三类产品。第一个就是CPU;第二个就是操作系统;第三个则是元器件。CPU无疑是核高基专项当中的重中之重,也可以说上面连着整个国家的信息安全,下面连着我们的产业安全。所以说如果我们突破不了CPU与操作系统,那就意味着核高基专项的成果要大打折扣。
因此在发展核高基CPU课题的同时,中国计算机科研人员也在尝试着打造两件事情—围绕CPU打造一个完整产业链,从设计、制造、封装、测试到整机应用,毕竟没有一个好的产业环境和一个完整的产业链,是难以制造出一款成功的处理器;同时,中国的科研人员也在不断尝试、探索如何组织执行对CPU、操作系统这样的高难度任务攻关,并已初步找到软硬结合、整机带动、产业链各个环节联动的模式。“要真正地解决问题,找到一条适合中国特色的发展之路”魏少军所长如此说。只是这条路对于中国的科技人员来说的确也是一条艰辛之路。
打造国产x86处理器有何难处?
“虽然是参加CPU的发布会,但今天主要想讲研发困难和投入分析”,国家核高基专项技术副总师、中国科学院通用芯片与基础软件研究中心主任李明树博士一站上讲台就发出了这样的感慨,同时也透露了兆芯的不少投入细节—兆芯牵头的核高基课题是核高基历史上最大的经费投入课题。其总金额为57亿人民币,包括核高基投入的15.6亿,上海地方配套的15.6亿,剩余的则都是企业自筹。也就是说整个兆芯课题,包括CPU、操作系统、整机、工艺四大部分加起来获得的总投资为57亿元人民币,其中还有不少是兆芯自己省吃俭用东挪西补筹来的。
而这57亿元金额虽然看起来很多,但与其他处理器厂商的投入相比没有任何优势。首先由于我国x86处理器起步较晚,很多技术、协议的使用需要以资金投入来获得国际授权;其次就是老生常谈的,花费很高的研发与工艺成本。李明树博士拿出了通过公开报道搜集的资料:IBM Power 8处理器的研发费用在24亿美元左右;AMD Zen架构研发花费约五年时间,成本55.82亿美元,其中架构投资约31.26亿美元。数值可能存在出入,但大概花费了几十亿美元的研发成本是不会错的。而英特尔在研发上现在每年要花费百亿美元,我们则是花几十亿人民币来做人家几十亿美元、甚至上百亿美元的事,的确非常不容易。
那么在投入有限的环境下,新一代国产x86处理器到底取得了怎样的成就呢?
国产x86处理器技术架构获重大进步
首先,中国科学院院士、中国科学院上海高等研究院院长王曦院士认为此次兆芯开先KX-5000系列的发布是中国处理器非常重要的突破,工业和信息化部电子信息司集成电路处处长任爱光则表示这个项目是各位总师倾注心血最大的项目,今天兆芯开先KX-5000系列的发布是咱们迈出的第一步。当然更为精彩的,还是接下来上海兆芯集成电路有限公司董事长叶峻先生,上海兆芯集成电路有限公司总工程师王惟林先生从技术的角度对兆芯开先KX-5000系列处理器进行的详细介绍。
开先KX-5000系列处理器是兆芯第一款采用SoC设计,基于Wudaokou架构的国产自主可控通用CPU,它采用28nm工艺打造,核心数达到4~8核心。同时它也是国内第一款支持双通道DDR4内存的国产CPU。其187平方毫米面积大小的芯片里总共有21亿个晶体管,里面可集成最多八颗CPU核心以及显示核心,处理器自带的显示核心支持高清4K解码。
SoC设计的意义是什么?在之前的兆芯ZX-C+8核心处理器上,它的结构是由两个ZX-C四核心处理器封装在一起,在外观上我们可以看到其PCB基板上有两颗小核心然而问题也来了,多核心处理器在工作时需要确保各个核心所能“看”到的缓存内容一致,知道哪个数据被改写了,哪个任务该由哪颗核心来执行,避免冲突,实现效率最大化,因此就需要时刻同步,以保持缓存一致性。但ZX-C+处理器只是一个单纯的运算核心,要让每个四核模块中的缓存保持一致性,就需要将这个协调工作交给外部的北桥芯片—两个四核心模块需要同步更新处理器内缓存的数据时,将由FSB前端总线传输到北桥作更新。虽然缓存的数据量并不巨大,但由于需要通过北桥进行处理,无疑会带来一定的延迟,核心之间的通信就会变得缓慢,这将在一定程度上影响处理器性能的发挥。
而在开先KX-5000系列处理器中,它不仅提升了缓存容量,每四颗核心共享4MB缓存,总计拥有8MB缓存。更重要的是,处理器与北桥的完全融合,使得其缓存数据的一致性直接在处理器内部就可以完成。这也就意味着处理器之间的交互不用再通过北桥,而是使用片内高速点对点直连网络互联,降低了延迟并提高了带宽,其架构与AMD的ZEN非常类似,可以说是“英雄所见略同”。
其次内存控制器、PCIe控制器的融合也可以大大提升内存与显卡性能。在南北桥架构中,内存、显卡都必须通过北桥由FSB前端总线将数据传输给处理器。但问题是在ZX-C平台中,FSB前端总线频率只有1333MHz,理论最大带宽也就在10.6GB/s左右。而在开先KX-5000系列处理器中,它在处理器内部整合了DDR4内存控制器与PCIe控制器,处理器可通过内部的高带宽直连总线访问内存、显卡。根据兆芯的数据,其中内存访问带宽提升到单核心12GB/s,多核心17GB/s,内存带宽的提升能更好地发挥出处理器的运算性能。
更为关键的是,兆芯开先KX-5000系列采用的Wudaokou架构通过减少5级流水线的全新核心流水线设计,改进的分支预测,改进的乱序执行算法,以及带宽翻倍、全新的访存单元使得处理器的单核性能提升了25%,多核性能提升了1.4倍。同时兆芯也为KX-5000系列设计了型号为ZX-200的IO扩展芯片(即类似于英特尔Z370、AMD X370,提供扩展能力与功能模块的主板芯片组),可以提供9条PCIe 2.0通道,11个USB接口,其中包括两个原生的USB 3.1 GEN2接口,要知道目前英特尔的Z370主板都尚无法原生支持USB 3.1 GEN2。
同时在产品布局上,与英特尔的Core i3、Core i5类似,兆芯此次在开先KX-5000系列上布局了多款产品,定位较低的如KX-5540、KA-5640。其核心频率在1.8GHz~2.0GHz,采用四核心四线程设计;定位较高的产品在数字型号前则有英文U,如KX-U5680、KX-U5580M、KXU5580M,均采用8核心8线程设计,彼此间的不同主要在工作频率的设定上。此外兆芯还针对服务器、存储领域推出了基于Wudaokou架构的KH-20000系列,与普通的开先KX-5000系列相比,它们支持最高128GB内存,并支持RDIMM/ECC内存。
而在大家最为关注的性能上,兆芯此次也公开了多项数据。兆芯开先KX-5000系列8核心处理器在SPEC2006中的整数单任务性能为19.9,多任务评分为115。在DIY玩家常用的FrizChess象棋算力测试中,其性能达到7911千步/秒,7-zip综合评分为12122MIPS,CINEBENCH R11.5 CPU渲染得分为4.01pts。从这些测试结果来看,兆芯开先KX-5000系列8核心处理器的性能已经基本达到第六代酷睿处理器Core i3-6100的水平。Core i3-6100处理器在FrizChess象棋算力测试中的成绩为7588千步/秒,CINEBENCH R11.5 CPU渲染得分4.35pts,7-zip综合评分在11236左右。从还在使用南北桥架构、FSB总线的ZX-C处理器到性能追上第六代酷睿i3处理器,对于兆芯国产x86处理器来说,这的确是一个非常大的进步。难怪王曦院士将兆芯开先KX-5000系列的发布称为“中国处理器非常重要的突破”。
瞄准个人用户市场 未来将更加值得期待
会后本刊还特别对上海兆芯集成电路有限公司董事长叶峻先生,上海兆芯集成电路有限公司总工程师王惟林先生进行了专访,而两位国产x86处理器的领军人也在访谈过程中对更多有关国产x86处理器的应用、市场诉求,以及未来兆芯处理器的发展情况进行了介绍。
首先叶峻先生介绍到除了已经在一些国家单位得到应用外,更值得提及的是,在十九大上也使用了基于兆芯处理器的联想计算机全程保证了十九大的会务。根据会场的使用反馈情况,国产整机在会议期间运行稳定,机器性能良好,应用性强,获得了一致认可。同时兆芯处理器的安全性,对SM3、SM4高速国密算法指令的支持,快速加解密各类政务、保密文件的能力也是其他国外处理器不具备的,这也显示出兆芯已经能很好地满足政府部门、军队以及金融等专业市场的需求。不过这个市场的量并不大,全国保有量也就在200万台左右,每年的总采购量也就几十万台,这个市场的份额只占整个CPU市场的最多5%,同时还有其他国产处理器的竞争。所以兆芯要想获得更好的发展,还得去争取那剩下95%的个人用户市场。在这个市场虽然没有国内同行竞争,但却有英特尔、AMD两大巨头。兆芯非常希望同他们展开市场竞争,但发展和进步必须要一步一个脚印的来。
为什么不一步到位将现在的兆芯处理器提升到可与英特尔、AMD产品匹敌的频率,配备更多的缓存?王惟林先生解释到目前我国处理器与竞争对手的主要差距还是在工艺上,单有好的想法、设计是不够的,必须根据自身工艺水平来决定处理器的架构设计,如果工艺跟不上还是无法实现。当然兆芯也在努力追赶更先进的生产工艺,如正在开发的KX-6000将采用16纳米工艺,单核频率达到3.0GHz,可支持DDR4 2800、3200内存,KX-6000将探索高频率下的设计流程。同时新的处理器微架构也在准备当中,兆芯新的互联架构KX-7000会进一步升级,目前核心已经开发到了一定的程度。根据兆芯的评估,其单核性能与KX-5000相比,同频下面增长了1.4倍到1.5倍,并将支持PCIe 4.0、DDR5等未来前沿技术标准。
“从近2~3年的目标来看,兆芯的目标是要具备自我造血能力,将处理器的销量逐步提升,尽快达到每年百万级的销量。如此一来,兆芯不仅能够实现收支平衡,也可以有力扩大我们的研发团队,并加大研发投入,从而让兆芯处理器不断发展。”在采访最后叶峻先生提出了他的期望。显然兆芯处理器绝不是一个仅仅依靠外部投资的形象工程,而是一个旨在通过技术攻坚、融入市场化运营,对我国处理器行业发展具有重大意义的实干项目。我们期待在x86处理器市场,早日迎来三足鼎立的那一天。
文、图/本刊记者 马宇川
