中美日欧秣马厉兵 冲击“E超”胜算几何?

  • 来源:中国计算机报
  • 关键字:超级计算机,神威·太湖之光,E级超算
  • 发布时间:2016-07-06 14:23

  在不久前公布的全球超级计算机TOP500排行榜中,由国家并行计算机工程技术研究中心研制的“神威·太湖之光”一鸣惊人,不仅夺得冠军,而且将计算速度刷新为93PFlops(每秒9.3亿亿次)。“神威·太湖之光”以其接近100PFlops的运算速度,而以前更多处于探讨阶段的目标开始浮出水面。E级超算是超算的另一座高峰吗?

  答案是肯定的。在跨越十亿亿次超级计算机这道坎后,世界各国争夺的下一个超算皇冠就是E级超算,也就是百亿亿次超算计算机。预计在2020年左右,E级超算将变成现实。不过由于技术方面的种种限制,特别是功耗的限制,E级超级计算机的研制从现阶段看仍有相当大的难度。

  6月24日,数据中心端到端互连方案提供商Mellanox公司宣布,已与美国太平洋西北国家实验室(PNNL)签署技术合作协议,共同研究开发针对E级超算平台的相关技术,主要包括研发一个基于InfiniBand的百亿亿次超算系统,以满足美国能源部的研究需要。

  E级超算要翻越几道“墙”?

  制约E级超算的技术瓶颈在哪里?架构、存储、网络、软件、成本、能耗还是其他因素?中国计算机学会高性能计算专委会秘书长、中科院计算所研究员张云泉认为,最关键的还是功耗问题。如何能够在达到百亿亿次超算的前提下,将功耗控制在30MW,甚至20MW之内,是世界各国面临的共同难题。

  如果将功耗控制在20MW,就要求E级超算系统的每瓦性能达到50GFlops,而目前的超算系统还只能达到6GFlops,中间有巨大的差距。现在,各国都采用异构加速或异构综合的方式来降低功耗。但是,这样做带来的是编程的困难。

  综合来看,E级超算目前主要面临编程、功耗、可靠性和存储等几堵“墙”。翻越这几堵“墙”,对于E级超算的玩家来说是严峻的挑战。从“神威·太湖之光”这次的突破来看,目前我国已经初步具备了冲击E级超算系统的条件,异构综合体系架构可以作为冲击E级超算系统的可选的技术路线之一。

  张云泉认为,“神威·太湖之光”的横空出世,表明我国在E级超算的技术储备,特别是硬件储备上已经有了比较好的基础,现在最需要补足的是对E级超算应用需求的分析和E级超算应用软件的开发,以及相关生态系统的建立,尤其是软件生态系统的建立。整个业界要论证清楚,我们为什么要发展E级超级计算机,E级超级计算机的应用可以给国家和企业带来什么样的益处。只有清楚地回答了上述问题,E级超算的研发才能真正做到有的放矢。

  目前,很多国家已经开始研制E级超算的原型机。如果将商用的完整的E级超级计算机比作一处优美的风景,那么原型机只是一个按比例缩小了的微缩景观。从小系统到大系统,规模的增加意味着实现难度也呈几何级数增加。原型系统不可能暴露最终系统的所有问题,只能验证一些关键的技术设想,对一些关键技术难点进行测试和改进,为最后建造整个系统扫清障碍,避免出现大的技术错误和难题。

  张云泉介绍说,E级超算主要还是用于解决一些具有重大计算需求的问题。E级超算系统本身的研发就很困难,再加上当前应用需求还没有跟上来,因此一些国家对于发展E级超算系统产生了顾虑。今天,人们能够看到的E级超算的应用需求主要集中在,如全球气候变化模拟、天体物理大数据的处理(如SKA项目)、模拟宇宙的演化、模拟新型材料和核武器研究等领域。

  除了科学计算以外,E级超算也可以在深度学习、大数据、云计算等领域发挥重要作用,进一步提高人们对海量数据的处理和利用能力,同时对上下游的核心技术和关键部件的研发、应用环境和软件的孵化产生积极的促进作用。

  冲击“E超”指日可待

  “神威·太湖之光”的出现,让我们看到了E级超算这顶皇冠上散发出的耀眼光芒。

  在我国最新公布的“十三五”高性能计算专项课题中,3个E级超算的原型系统研制项目赫然在列,这三大原型系统将分别由中科曙光、国防科技大学和江南计算技术研究所牵头研制。目前,三个原型系统的研制工作都已经启动,不过最后哪个项目会脱颖而出,国家级的E级超算系统将由谁负责建造,系统安装在哪里,现在还没有定论。

  在“十三五”规划中,对于E级超算系统的研制,我国采取了竞争的原则,这也是参考和学习美国惯用的方式,最开始的原型系统由三家单位各自设计。两年之后,国家要对三个原型系统进行评估,从中选择两个单位,进入下一阶段的研发,最终选择一个单位负责最后的E级超算系统的实现机型研制。张云泉认为,三家研制单位在技术方面可能会产生交集,也不排除技术合作的可能。国家将从三家研制单位各自的技术路线图中选取最优的方案,进行整合,最终构成国家的E级超算应用体系。

  中国计划在2020年左右,也就是在“十三五”规划结束的时候,推出E级超算系统。欧盟希望于2020年左右实现其E级超算计划,目前普尔公司正在具体实施这一计划。日本的计划也是在2020年实现其E级超算计划,可能由日立公司或富士公司来承担这一重任。美国似乎对E级超算有些“悲观”,相比其他国家雄心勃勃的计划,在时间上略有推迟,计划于2022年发布其E级超算系统。

  从全球范围来看,目前各国的E级超算系统都处于研制过程当中,还没有成功的应用案例。我国与其他国家在E级超算系统的研发上处于同一个起跑线上。张云泉表示:“我们只要利用好现在这个有利时机,尽快弥补在应用研发上的不足,加快研制出适合E级超算系统的软件,就可以保证我国在E级超算的应用方面达到国际先进水平。现在,全球可以应用于E级超算系统的软件有6个,我国就有3个,占了其中的一半,说明我们已经在E级超算的应用方面抢得了先机。”

  在E级超级计算机的研发方面,各国都在摩拳擦掌,中国、美国、日本和欧盟已经冲在前面,究竟谁能最先推出商用的E级超级计算机,现在就下断言还为时过早。张云泉认为,拨巨款用于E级超级计算机研发的中国目前处于有利位置:“只要坚持下去,不松懈,中国就有在E级超算领域拔得头筹的机会。大家可以拭目以待。”

  E级超算的原型系统与最终的系统之间还是有很大差距的。仅从研发经费上说,开发原型系统的经费只有区区几千万元,即使是按1∶2的配套来计算的话,研发经费最多也就接近1亿元。因此,原型系统只能实现最终系统很少的一部分功能,性能达到几十Pflops就已经非常了得。原型系统只能验证一些应急性的关键技术,为真正的E级超算系统打下基础,同时探索各种不同的技术路线和技术架构。总之,原型系统与最终的E级超算系统是有较大差距的,它可以为论证E级超算系统的可行性提供一定的参考和借鉴。

  之所以说“神威·太湖之光”让我们看到了E级超算系统的曙光,是因为它接近了100Pflops的性能峰值。从100Pflops到1000Pflops,这中间还要不断突破性能的峰值。不过,“神威·太湖之光”的成功让人们看到了继续实现性能突破的可能性。目前,“神威·太湖之光”采用的还是28纳米技术,在性能上仍有很大的挖掘空间。这让中国的E级超算研发人员看到了更多成功的希望。

  张云泉表示,“神威·太湖之光”的成功至少证明了,它所使用的申威26010高性能处理器的这种异构、众核的体系架构是可以支撑100Pflops超算系统的,但是否能够支撑E级超算系统,还要经过实际的应用和测试,才能得到进一步验证。超算体系架构的研究者应该根据各方面的反馈对架构进行持续改进,为下一步向E级超算迈进提供经验和借鉴,为实现E级超算综合能力的全面提升奠定更加坚实的基础。

  “神威·太湖之光”除了在全球超级计算机TOP500中夺魁让人感到惊喜以外,它在自主可控方面的全面突破也值得充分肯定。该系统实现了包括处理器在内的所有核心部件全面国产化。张云泉认为:“未来,我国在E级超算领域实现自主可控不成问题,因为‘神威·太湖之光’已经打下了一个坚实的基础。这就像攀登珠穆朗玛峰,我们之前已经建立了营地,做好了技术、人才、资源、材料、经费等诸多方面的准备,接下来只要完成最后的登顶即可。只要全国上下一心,我国实现E级超算指日可待。”

  据记者了解,由中科曙光牵头的E级超算原型系统研制项目将于7月4日举行的曙光技术创新大会(IDIC2016)上正式启动。中科曙光与中科院计算所先后研制完成了从曙光1号到曙光6000共7代高性能计算机,掌握了高性能计算机HPP体系结构、高效能刀片服务器、3D-Torus网络、高性能网络交换机、大规模并行存储等一系列核心技术,并逐步实现了超算系统产业化,具备强大的研发实力。中科曙光此次围绕E级超算原型系统进行的研制工作是对E级超算又一次有益的探索。

  E级超算并非尽头

  随着计算技术的进步,以及用户越来越关注应用,而不是单纯的性能指标,作为全球超级计算机TOP500排名依据的Linpack测试,如今也暴露出一些问题,比如与实际应用的关联并不紧密,对架构创新的激励作用日益降低,系统整体可用性越来越不可测量,排行榜被当作市场营销的工具等。Linpack测试是不是已经“Out”了?是不是有新的评判标准可以取代Linpack测试?

  其实,业界对Linpack测试的批评由来已久。在过去几十年中,Linpack的成功伴随着很多批评和质疑的声音。人们对Linpack的质疑主要集中在,Linpack只反映了高性能计算体系结构的一个方面的情况,不能全面、真实地反映出软件的性能和效率。

  “人们之所以批评Linpack测试,因为它不能反映真实的应用效率,表面上显示其效率为70%左右,而实际的应用效率可能只有5%~10%。很多人认为,Linpack测试将高性能计算体系结构的研发引到了一个错误的方向上。现在,很多新的Benchmark测试方法想取代Linpack,但是并不成功。比如,Green500已经被TOP500合并,还有Graph500、HPCG等并没有形成气候。”张云泉表示,“目前为止,还没有任何一个新的Benchmark测试可以取代Linpack的地位。”

  发展高性能计算的实际意义在于,使用超级计算机,再配上相应的空间模拟软件和仿真软件、设计软件,可以对企业的设计创新和产品创新产生巨大的推动作用。张云泉认为,如果中国广大的中小企业能够利用一部分超算的资源,就足以支撑其创新的应用需求,尤其是在产品设计和精细化设计的过程中将超算系统用于模拟,企业的创新能力将得到极大提升。

  ■本报记者 郭涛

关注读览天下微信, 100万篇深度好文, 等你来看……