从“启明”到“太乙”,南科大的超算发展之路

  • 来源:计算机世界
  • 关键字:网络,高性能,计算机竞赛
  • 发布时间:2019-06-26 23:16

  

  “集群采用了英特尔至强金牌处理器、815个双路刀片服务器节点、3.26万个计算核心、5.5PB的存储裸容量,还配备有GPU节点4个、KNM节点4个、FPGA节点2个,系统计算网络为英特尔最新的1152端口OPA。系统理论峰值性能为每秒2500万亿次,实测计算性能为每秒1687万亿次。”

  这样一组数据,在HPC业内人士看来似乎并没有什么惊艳之处。如果说,这套超算系统是一所2011年才创办的高校,从开始筹建到最终交付用时不到一年打造的话,就会让人留下深刻的印象了。

  南方科技大学正是这样一所让人印象深刻的高校。作为国家高等教育综合改革试验校、广东省高水平大学重点建设高校,它是由广东省领导和管理的全日制公办普通高等学校,深圳市创办的一所创新型大学。南科大仅用短短数年时间就已经成为国内知名、国际上有一定影响力的高校,其实力在国内科技大学里面排名前五位,在泰晤士报世界大学排名上已经排到了中国内地第八的位置。全校近300余名教学科研系列教师中,有28名院士、35名国际会士、24名“国家杰青”、8名“国家优青”。这样高的顶尖人才比例,足以挤进985顶级行列,秒杀大多数211高校了。

  在HPC领域,南科大的二期高性能集群——“太乙”在SC2018全球超算大会最新一期的全球Top 500超算集群排名中名列第127位,在国内高校中除国防军事类院校外位居第一。南科大的学生超算团队在刚刚结束的ASC19世界大学生超级计算机竞赛总决赛上获得了大赛一等奖、应用创新奖及最佳人气奖三个奖项。

  是什么让南科大在短短几年间取得了如此成绩?又是什么促使南科大在HPC计算上如此发力?可以说,科研与创新是其源动力。正如南科大副校長兼总务长鲁春所言:“我们的教授大概有80%都是从国外回来的,他们回国最看重的不光是待遇,而是科研实验的平台,目前越来越多的科研项目都是计算机模拟而来,因此HPC计算平台的重要性不言而喻。如果没有很好的计算资源和存储资源,如果没有平台,这些高级教授人才回来做不了科研也就没有了意义。”

  据了解,南科大作为一所创新型大学,其目标是迅速建成国际化高水平研究型大学,建成中国重大科学技术研究与拔尖创新人才培养的重要基地。其在新型物理、材料领域的创新成果,包括凝聚态物理等前沿理论,位居国内科研领域的前沿。当前学校各大学科中计算需求量较大且迫切的学科主要集中在物理、化学、生物、环境、材料、金融、数学等领域。

  鲁春在采访中向记者列举了两个例子,南科大在做无人机空气动力研究时,如果完全用实体飞机来实验,很多时候对实验实体具有破坏性,成本非常高,倒不如利用算法模型,模拟全天候和各种恶劣气候条件下的机翼性能优化,这时候就需要进行空气动力学的大量计算;而在生物信息学领域,人体脑电波在不同的场景下,会产生什么样的变化,都会产生出大量数据,脑电波与行为之间的关系,都需要进行大量计算。

  正因如此,南科大在2015年搭建的一期高性能集群——“启明”的计算和存储资源很快就无法满足校内科研项目的需求。而为了让“太乙”在使用中效率更高,南科大通过邮件调研所有教授的需求,进行综合考量:材料系要做原子量级、电子量级的计算,对计算量的要求会非常巨大;计算机系更多的是关注人工智能,对算法的运算力是不是足够高十分关注;生物系要求的计算性能不是特别快,但对存储的性能要求很高。

  鲁春指出,得益于精细化管理和不断改进的作业队列系统,目前“太乙”的资源利用得当。南科大还将会进一步帮助用户提高他们代码的计算效率。不过按照南科大目前的发展速度,可能很快就要对超算中心进行升级了。

  从“启明”到“太乙”,得益于南科大在超算领域的前瞻性布局,在2018年Nature Index的70多个刊物里,南科大教授们所发表的文章数排在所有中国大学第26位,但在所有大学发表的文章中被引用量已排名全国第一。

焦旭

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: