E级超算的曙光

  • 来源:中国计算机报
  • 关键字:E级超算,IDIC,云计算,大数据
  • 发布时间:2016-07-26 10:40

  中国工程院院士李国杰在7月4日举行的2016中科曙光技术创新大会(IDIC 2016)上致辞时谈到,他当初带领团队研制高性能计算机时就受到了美国“禁运”的影响。来自外界的压力、来自用户的迫切需求,促成了中国高性能计算(HPC)行业的快速发展。目前,中国在HPC领域已经形成了比较完备的体系,与国际厂商在HPC领域同台竞技时也丝毫不落下风。

  今天,中国又踏上了“E级超算”的新征程,与超算强国美国、日本,以及欧洲开始了新一轮竞赛。

  创新是基因

  6月20日公布的最新一期全球超算TOP 500排行榜中,使用中国自主芯片制造的“神威·太湖之光”取代中国的“天河二号”荣登榜首。“神威·太湖之光”的浮点运算速度为每秒9.3亿亿次,速度比第二名“天河二号”快近两倍,效率提高3倍。其实,来自中国的超级计算机登顶全球TOP 500排行榜已经不是什么新鲜事,由中国国防科技大学研制的“天河二号”超级计算机曾在全球超算TOP 500榜单上六度称雄。

  此次“神威·太湖之光”夺冠更具里程碑意义的是,它采用了中国自主研制的芯片,而且其每秒9.3亿亿次的浮点运算速度让人们看到了冲击E级超算(浮点运算速度达到每秒百亿亿次)的曙光。另外,中国的超级计算机上榜总数量有史以来首次超过美国名列第一,也是一个重要的里程碑。

  超算一直被认为是衡量一个国家综合实力和创新能力的重要指标。综合全球超算TOP 500排行榜、IDC等第三方市场分析公司的数据,以及中国超算军团在技术和应用方面的大胆创新与突破,可以说,中国超算的整体实力已经得到了大幅提升,成为世界超算领域最重要的一支力量。

  用中科曙光总裁历军的话说,中国超算经历了跟跑、并跑的阶段,现在已经开始领跑。今年是中科曙光成立20周年,它在HPC领域多年的摸爬滚打,练就了一身“硬功夫”,已经成为中国HPC领域的领军企业。

  在2015年11月16日公布的全球超算TOP 500排行榜中,中科曙光以49台的成绩超过IBM问鼎榜单系统份额前三,实现了中国企业在世界超算领域的历史性突破。而在此之前,中科曙光已经连续七年蝉联中国高性能计算机TOP 100排行榜市场份额冠军。

  在2016年6月20日公布的全球超算TOP 500榜单中,中科曙光为取得总量第一的中国超算军团贡献了51套机器,占30%,其整体份额超过全球TOP 500总份额的10%,稳居全球前四。该排行榜的主要编撰人、美国田纳西大学计算机学教授杰克·唐加拉表示,以中科曙光为代表的中国厂商正助力中国超算崛起,拥有巨大市场优势的中国超算厂商在行业中扮演着越来越重要的角色。

  在另一个全球知名的超算排行榜Green 500中,在“最高能效”的十大超算系统中,中科曙光有3套超算系统进榜,成为全球“最绿色”超算TOP 10份额第一。中科曙光正通过不断完善技术、性能、安全、成本、应用、节能、服务等,为HPC明天的发展闯出一条新路。

  HPC成就了中科曙光的昨天、今天,也是中科曙光明天的核心和重要的一部分,却并不是全部。中科曙光并不想被市场和客户仅仅定位成一个HPC厂商,尽管这是中科曙光的强项。中科曙光的目标是发挥多年来在HPC领域的技术积累和经验,逐步向软件、应用和服务领域拓展,最终成为“中国最有价值的信息系统和服务供应商”。这既是不断变化的市场提出的新要求,也是中科曙光自身转型升级的必然选择。

  “中科曙光将面向未来而创新。”历军在IDIC 2016大会上表示,“创新是中科曙光取得成功的最重要的基因。持续创新,不断超越自己,以过硬的技术和产品赢得市场和客户的认同,这就是中科曙光要做的。”

  也正是基于此,中科曙光才从去年开始投入大量资源创办了一年一度的中科曙光技术创新大会,目的就是全面回顾与展示中科曙光过去一年中在产品、技术、商业模式等方面的创新成果。中科曙光已经打造了一条从战略到产品再到应用、服务的创新链条。如今,中科曙光正准备将这套完善的创新机制用于E级超算。

  在IDIC 2016大会上做演讲时,历军意气风发。不过历军自己坦言,在过去这么多年中,他的内心一直“诚惶诚恐”。他无时无刻不在想着如何让企业生存下去。可能正是这种严谨的管理公司的方式,对技术的敬畏和追逐之心,才让中科曙光有了今天的成绩。

  “以自主创新打造核心竞争力,以协同创新推动产业化发展。”这是历军总结的中科曙光创新之道,也是中科曙光向E级超算新目标迈进的核心战略指导思想。

  行走在E级超算的大路上

  E级超算,全球超级计算领域的又一顶皇冠。以“神威·太湖之光”将超级计算机的浮点运算速度刷新为93PFlops为标志,全球范围内的E级超算竞赛已鸣枪开跑。

  如今,美国、日本和欧洲等国家和地区都发布了自己的E级超算研发计划。中国也将百亿亿次超级计算机与相关技术的研究写入了国家“十三五”规划,计划于2020年左右实现这一宏伟的研究计划。在国家“十三五”高性能计算专项课题中,中科曙光与国防科技大学、江南计算技术研究所同时获批牵头E级超算的原型系统研制项目,形成了中国E级超算领域三巨头齐头并进的局面。三家之中,中科曙光稍稍领先,已于7月4日正式发布其E级超算原型系统。

  中科院计算所研究员、中国计算机学会高性能计算专委会秘书长张云泉表示:“原型系统的研制可以验证对E级超算的一些关键技术的设想,并对一些关键技术难点进行测试和改进,为最后建造完整的系统扫清障碍,避免出现大的技术错误和难题,类似的预研项目非常必要。”

  “整个E级超算项目的研制大约要投入30亿元。我们将与上海超算中心和深圳超算中心携手进行研制。”中科曙光副总裁沙超群向记者介绍说,“在原型机研制阶段,我们的工作重点是对E级超算的技术路线图进行探索。”

  单纯从技术的角度看,E级超算系统的研制必须翻越许多障碍墙,包括性能墙、可靠性墙、能耗墙、扩展性墙等,另外,E级应用的创新也必须跟上。

  在IDIC 2016大会上,沙超群对中科曙光E级超算原型系统项目的规划和研究路线进行了详细解读,首次亮明了中科曙光的“E级路线”。在E级超算预研阶段,中科曙光的主要任务是完成E级原型机系统的研制,验证E级机研制的关键技术和路线图,形成E级机的完整方案,为国产E级超算的研制奠定技术基础。在这个关键时候,中科曙光20余年在高性能计算领域积累的丰富经验实现了厚积薄发。围绕上述目标,中科曙光从体系结构、计算、存储、网络、系统软件、系统冷却、可靠性等方面针对未来E级机的研制进行了有益的探索。

  首先从体系结构方面看,中科曙光提出了一种超融合、自适应、并行处理体系结构(HCAPP),并且采用先进的6D-Torus高维网络架构和层次化网络系统,使系统具有10万节点的扩展能力,可以稳定扩展至E级计算规模。

  其次,从存储系统的角度看,中科曙光E级超算原型系统采用的是曙光承担的863课题“曙光EB级云存储系统研制”的最新研究成果。沙超群指出:“层次多协议的高性能存储系统具有超强的EB级扩展能力,以及支持千亿级文件的存储能力。”

  最后从节能的角度看,曙光拟采用目前最高效、最先进的服务器冷却技术——全浸没式相变液冷技术。全浸没式相变液冷技术具有换热效率高、安全性好等优点,冷媒与发热器件直接接触,能一次性解决全部元件的散热问题,同时大幅提升系统的可靠性。

  中科曙光在服务器液冷技术方面已经有多年经验,之前已经推出了采用液冷技术的服务器和数据中心解决方案。中科曙光去年研制推出的“地球数值模拟装置”原型系统数据中心机房,实际运行的PUE值达到1.17,最低可降至1.1以下。

  除了冷却技术以外,中科曙光在提高能源使用效率方面也不断推陈出新。2015年10月,中科曙光与中国分布式电源和储能领域的领导厂商联方云天科技(北京)有限公司(以下简称联方云天)签署战略投资协议。中科曙光的数据中心解决方案与联方云天的分布式电源和储能方案形成了互补。在E级超算系统中,中科曙光尝试将采用锂电池的分布式UPS引入服务器机柜内,并且采用高压直流的供电模式。这些有益的探索和尝试为E级超算项目的研制打下了坚实的基础。

  传统超算系统的应用范围相对比较狭窄,主要集中在科学计算领域。另外,在我国,还存在超算资源分布不均,超算应用“冷热”不均的情况。在一些沿海经济发达地区,比如上海、深圳,超算中心要排队使用,而在其他一些地区则出现了超算资源闲置的情况。E级超算项目启动后,会改变我国超算应用的现状吗?

  沙超群解释说,中科曙光E级超算系统原型机在完成E级系统关键技术验证的同时,也在着力打造良好的生态环境,使之具有广泛的适用性。比如,中科曙光E级超算系统原型机除了可以支撑高性能计算以外,还可以应用于深度学习、大数据、云计算等领域,加快技术成果产业化应用,对我国高性能计算产业的发展有重要支撑作用。

  中科曙光E级超算系统原型机作为工业标准的高性能计算系统,不仅可以为国家科技创新和产业转型升级提供基础设施保障,还将有力地促进中国高性能计算产业成果走向世界,从而推动全球基础科学研究、工业转型升级,以及企业的数字化转型等。

  打造E级应用生态

  IDIC 2016虽然围绕E级超算展开,但是“E级”在这里有多层含义:第一,当然是探索E级超算之路;第二,在云计算、大数据时代,面对数据的爆炸性增长,中科曙光在EB级存储的研制和应用上取得了突破,中国电信“全球眼”项目的30万个摄像头的数据存储就采用了中科曙光的存储,而中科曙光的EB级存储可以胜任300万个摄像头的数据存储;第三,中科曙光在计算、存储、网络、安全、能耗等方面的技术创新,可以更好地为“亿万”用户服务。

  从这个角度讲,中科曙光的目标不仅仅是研制出一台E级超级计算机,而是以此为契机,构建一个E级计算生态系统,更好地支持云计算、大数据、人工智能、物联网等丰富多彩的应用。

  经过多年的发展,中科曙光已经从一个HPC硬件设备提供商逐渐转型为可以提供硬件、软件、应用和服务的综合信息服务商。在IDCI 2016大会上,中科曙光除了发布包括E级超算原型机、面向云计算的高密度融合架构服务器“星河”、新一代智慧城市云平台“云魔方”等在内的一系列硬件产品以外,还特别强调要挖掘更多适合这些产品的业务应用场景。

  举例来说,中科曙光“星河”云服务器已在教育行业新媒体云、天翼云和电子支付平台中得到了初步应用。中科曙光“云魔方”可以助力百万级人口规模的城市快速部署云计算中心,共享智慧城市应用生态。在IDCI 2016大会上,中科曙光与海康威视举行了签约仪式,双方将国内首套NVIDIA DGX-1用于视频监控方面的深度学习研究。DGX-1深度学习超级计算机是一个高度集成化的深度学习平台,具备深度集成的硬件、深度学习软件和开发工具,让开发者能够更加快速而轻松地进行开发。

  更多人可能还是比较关注E级超级计算机这个庞然大物到底可以应用于哪些场合。中科曙光副总裁邵宗有在大会上揭开了谜底。

  邵宗有首先列举了一系列数据:全球对地观测遥感数据达到EB级,所有中国公民的基因测序数据超过1000EB,中国某一线城市健康档案数据每年增长5PB,2030年全球海洋数据总量达到275PB……我们并不缺少数据,但是缺少有效采集、处理、分析和深度挖掘数据价值的方法和解决方案。中科曙光已经摸到了其中的门道,而E级超算无疑是一个非常好的工具。

  中科曙光已经找到了两个典型的E级超级计算机的应用场景:一个是空天大数据的应用,另一个是治理雾霾。中科曙光与航天星图通力合作,在卫星数据收集与存储、高分辨率对地观测、时空数据的可视化等方面进行了有益探索,形成了空天数据智能、一体化生产处理服务平台,在国防和民用领域都可以发挥重要作用。

  “治理雾霾比天气预报要复杂得多。”邵宗有表示,“没有E级计算,治理雾霾就无从谈起。”中科曙光在生态环境大数据应用方面与中科三清合作,目标是实现“天蓝、地绿、水清”。针对大气环境实时监测、预报预警、模拟分析、决策控制、公众服务等应用,中科曙光可以提供高性能计算与大数据平台。

  “我们计划每年都找出两个E级超算的典型应用场景,积少成多。”邵宗有表示,“E级超算的应用前景十分广阔,地球模拟、人脑模拟、治疗癌症、人工智能、预测和打击犯罪,甚至探测外星文明,都可以用到E级超算。”

  E级超算在大数据处理方面的确具有得天独厚的优势。今年4月,中科曙光发布了“数据中国加速计划”,其重点之一就是将布局政府大数据、科学大数据、安全大数据、工业大数据等四类大数据业务领域。在IDIC2016大会上,曙光展示了一批大数据应用的最新成果。比如,在政府大数据方面,曙光易通创造性地利用生物特征识别与云计算技术相结合的“身份认证云”,为中国人提供身份认证服务;在安全大数据方面,与中国科学院信息工程研究所联合研制安全服务器,开展安全大数据项目。

  特别值得一提的是,中科睿光是由中科曙光与VMware共同成立的一家合资公司,今年4月正式在重庆渝北区注册成立。这也是VMware在全球的第一家合资公司。在公司正式成立的当天,中科睿光就发布了两款新产品——Cloudview SVM Edition 2.0和CloudVirtual 6.2。

  全新的云计算操作系统Cloudview SVM Edition 2.0,充分利用VMware全球领先的虚拟化技术和曙光先进的云计算管理系统,是安全可控、性价比高、运行稳定、专为中国用户打造的新一代云计算管理系统。虚拟化管理软件CloudVirtual 6.2以稳定、安全、可靠为根本,致力于打造高可用性、恢复能力强的按需基础架构,是企业将其IT资源迁移至公有云或私有云环境的坚实基础,可以帮助中国企业简化运维、提高资源利用率和业务连续性。中科睿光首席执行官何牧君表示,希望在中科曙光和VMware两大创新领军企业的扶持下,成为中国云计算平台市场的有力竞争者。

  云承上启下

  “让亿万用户共享EB级数据,非云莫属。”中科曙光高级副总裁聂华表示,“从IT核心设备制造商到综合信息系统服务商,云计算是中科曙光业务转型的重要抓手。”

  在云计算、大数据时代,中科曙光已经为迎接市场变革和实现自身业务的拓展做好了准备。

  中科曙光的云战略业务布局包含以下五大因素:云模式,以城市云、行业云为主;云构建,专注打造云基础设施,主要包括云服务器和云存储两大类产品;云管理,云操作系统和云运维体系是两大重要支柱;云安全,坚持自主可控,从认证、标准等方面不断完善云安全;云应用,智慧城市与行业应用是重要的突破口。

  2015年初,中科曙光公司正式发布“数据中国”战略,其宗旨是通过建设“百城百行”云计算中心,深挖现有数据和计算资源,打造一张中国云数据服务网络,让全社会共享数据价值。所谓“百城百行”,就是在全国百个城市、百个行业落地云数据中心。

  中科曙光的“数据中国”战略正快速落地。截至目前,全国已有20多个城市落地城市云计算中心,支持的政务应用和智慧城市应用超过1000个。中科曙光利用8年多的云数据中心建设和运维经验,参与了30多个行业云的建设,汇集数据达30多PB。全面铺开的城市云和行业云建设使得中科曙光在全国范围内初步建成了一张云数据服务网络。

  “从城市云切入,借助智慧城市的机遇,抢占城市政务云大数据先机,形成城联网布局。”聂华道出了中科曙光云战略的核心。看来中科曙光早已有胸有成竹。

  “星河”云服务器与“云魔方”亮相IDIC 2016大会,这是近期中科曙光在云计算产品和解决方案创新方面的最大亮点。

  “星河”云服务器在体系结构、能耗比、整体服务能力和关键技术上实现了创新突破,专门面向云计算应用研发,可以完美解决亿级并发处理问题。聂华指出:“‘星河’的创新和突破意味着并发通用服务器已经从‘万级’(用户)步入‘亿级’(用户)。如果说传统服务器是服务器界的普通汽车,那么‘星河’就像服务器界的‘概念车’,豪华、定制,具备高性能。”

  作为构建智慧城市的基本单元,中科曙光新一代智慧城市云平台“云魔方”,采用一站式构建模式,中科曙光提供从技术设施到全套产品、解决方案和服务,随建随用。“云魔方”是中科曙光创新技术的集大成者,它汇集了曙光液冷服务器技术、3D-Torus网络、云计算管理软件Cloudview等,可实现模块化快速部署,能够轻松应对未来10年的应用扩展需求,是真正意义上的面向未来的创新。

  对于中科曙光来说,在云计算领域,技术与产品的创新是基础,但只是创新的一部分,商业模式的创新同样十分重要,这样才能“两条腿”走路,利用云计算实现对传统应用和商业模式的颠覆。这种颠覆不是刻意为之,而是水到渠成。

  今年4月26日,距“数据中国”战略发布时隔一年,中科曙光推出了致力于加速网络布局、加速数据汇聚的“数据中国加速计划”。如果将中科曙光去年发布的“数据中国”战略称为1.0,那么一年之后,“数据中国加速计划”的发布是不是可以看成是“数据中国”战略的2.0版?记者曾经在一次采访中向历军提出过这个问题。

  如果“数据中国”战略每年都有一个全新版本,在外人看来,可能有概念炒作之嫌。历军认为,“数据中国”是中科曙光要为之奋斗十年甚至更长时间的一项战略计划,要循序渐进、持之以恒、不断积累。“数据中国加速计划”的推出只是表明,在过去一年中,中科曙光在计划落地的过程中取得了一些成绩和进展,接下来中科曙光的步子可以再迈得大一些,走得再快一些。

  “数据中国加速计划”有两个重要目标:一是加速网络布局,尽快实现“百城百行”云数据中心的建设;二是加速数据汇聚,抓住“数据驱动创新”带来的重大机遇。

  为了实现上述目标,中科曙光究竟做了哪些努力呢?在加速网络布局方面,中科曙光创新性地推出了“城市云合作伙伴加盟计划”,计划在50个城市实行城市云连锁加盟,并与另外50个由中科曙光投资直营的城市云中心一并构成全国性云数据服务网络。

  此外,中科曙光还与其他30多个合作伙伴共同成立了“中国智慧城市产业联合体”。该联合体将主要围绕数据中国“百城百行”云数据服务网络的布局,聚焦区域信息化,进行联合投资与合作,共同推动地方经济产业的转型升级。

  尤其值得的一提的是,“城市云合作伙伴加盟计划”是中科曙光在云计算商业模式创新方面一次有益的尝试,被外界形象地称为“麦当劳模式”。

  在5月25日贵阳举行的“2016中国大数据产业峰会暨中国电子商务创新发展峰会”上,由中科曙光、贵州省娄山关高新技术开发区、深圳华旭科技开发有限公司共同投资组建的行业大数据和云服务互联网企业——贵州娄山云计算公司大数据中心首次亮相。

  按照既定的发展规划,未来娄山云将成为一个基于水务大数据的深度分析和应用平台,建成区域性的水务管理和综合调度系统,成为中国水资源信息调度中心。此后,娄山云还将强化其政务管理信息化中心和云服务人才培养,以及项目孵化中心的内涵。

  娄山云既是中科曙光提升政务大数据服务水平的一个先行区试点,也是中科曙光“城市云合作伙伴加盟计划”的一次具体实践。

  “城市云合作伙伴加盟计划”是助推器,让中科曙光在云计算的道路上越跑越快;“城市云合作伙伴加盟计划”同时又是黏合剂,它把中科曙光与各类合作伙伴紧密联系在一起,共同创新。

  为了加速“麦当劳模式”的落地,今年6月14日,中科曙光举办的首场“合作伙伴加盟大会”在无锡召开,相同形式的大会还将陆续在国内其他几个城市举行。会上,中科曙光正式发布“云和计划”,这被认为是中科曙光云计算商业模式的再创新。

  这一创新模式的起源还要追溯到“企业投资建设运营、政府采购服务”的中科曙光城市云“成都模式”。聂华解释说:“‘云和计划’拟在全国50个城市复制曙光城市云在架构、技术、安全、服务、运营等方面的最佳实践。基于此行动,中科曙光将与加盟商分享8年城市云投资运营的经验,共同把握智慧城市的发展趋势与投资机遇,通过合作抢占区域信息化市场。”

  据记者了解,中科曙光倾向于在无锡这类中等规模的地级市招募加盟对象,因为地级市数量众多、智慧城市建设需求迫切且整合相对容易。在这里,中科曙光的城市云模式可以快速复制。

  IT行业的区域代理、集成商、软件开发商,甚至是面临业务转型挑战的地方传统企业,比如房地产企业、大型制造企业等,都可以成为中科曙光城市云项目的创业投资人。

  连锁加盟这种投资少、见效快的商业模式以前多用于餐饮、零售等行业。如今,中科曙光活学活用,将它移植到城市云的建设中。中科曙光敢为天下先,一是因为具有多年建设和运维城市云的经验,二是深刻洞察城市云建设的先机,三是具有创新的精神,四是拥有长期合作的各类合作伙伴。这些都是“麦当劳模式”取得成功所不可或缺的条件。

  在“云和计划”发布会的现场,中科北斗星、长沙麦融高科股份有限公司、湖南尚锐信息技术有限公司与中科曙光完成签约,正式成为中科曙光城市云合作伙伴。在IDIC 2016大会现场,中科曙光又与7个城市的合作伙伴签署了连锁加盟协议。可以说,“麦当劳模式”初战告捷。

  历军总结说:“中科曙光一系列面向未来的创新,目标只有一个,就是让全社会共享数据价值。”这是中科曙光“数据中国”战略发出的最强音。

  ■本报记者 郭涛

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: