气象超级计算平台提升精细化管理水平

  当前,我国经济已由高速增长转向高质量发展阶段,数字经济正深刻地改变着人类生产和生活方式。作为产业升级的新动能,企业数字化转型在迎来发展新机遇的同时,也对信息产业的持续创新和突破发展提出了更高要求。

  曙光信息产业股份有限公司作为在中国科学院大力推动下组建的国家高新技术企业,是中国高性能计算、服务器、云计算、大数据领域的领军企业。自成立以来,曙光的服务器、存储、安全、数据中心等计算产品、 解决方案及云计算、大数据、人工智能、先进计算服务已被广泛应用于政府、能源、互联网、教育、气象、医疗及公共事业等社会各个领域。

  其中,在深圳市气象局超级计算中心项目中,曙光用优质的产品、专业的服务交上了令深圳市气象局乃至气象局业主们满意的答卷,也为深圳市乃至整个粤港澳大湾区带来了更高效的计算能力、更精细化的气象预报水平,更为城市的防灾减灾工作、智慧城市的建设和数字经济的发展作出了巨大贡献。

  天气预报,“准”字当先。但對深圳市气象局来说,一套2010年采购的超级计算机,其计算性能及存储容量已经远不能满足业务开展和科研创新的运行需求。随着气象局业务种类的日益增加、各行各业对预报水平精细化要求的日益提高,深圳市气象局需建立一个气象预报更精准、气象业务更智慧便民、气象研究更深入的新一代气象超级计算平台。

  在充分了解深圳市气象局业务模式和功能需求后,曙光快速成立专项业务组,并制定了可大幅度缩减项目交付周期的部署流程,确保了新气象超级计算平台快速、稳定的交付使用。在具体实施过程中,曙光HPC产品事业部气象行业技术团队充分发挥新气象超级计算平台的计算能力,在整体提高天气预报精确性的同时,定制化编制了详细完善的迁移方案,保障气象业务系统的顺利迁移,确保超级计算平台与气象局业务系统的完美匹配和结合。

  曙光气象超级计算平台的核心优势,主要体现在计算性能、网络性能、存储性能、冷却技术和绿色节能、行业应用模式研究、专业在线服务等多个方面。而在此次项目中, 最大的突破创新主要有以下两点:

  1.冷板式液冷——打破高性能计算平台运算力瓶颈的节能关键

  众所周知,传统数据中心的散热方式是风冷,即通过空调或风扇设备,借助降低空气温度、加快冷空气流速等方式直接对流走计算设备运行所产生的热量。随着超级计算机的发展,芯片的集成度和计算的速度愈来愈高,与此相对应的是计算设备运行所产生的热量也越来越高。为了降低温度,数据中心不得不部署更多的风冷设备降温,与之相伴的高能耗已经成为数据中心建设的最大难点。

  而且,当热流密度大于10瓦每平方厘米时,风冷技术就无能为力了。散热技术的天花板,已成为制约服务器和数据中心发展的瓶颈。如何才能突破风冷散热极限,满足满载工作的服务器的散热需求,成为了摆在全世界高性能计算机研发人员面前的一道难题。

  曙光依托多年来在服务器研发制造领域所积累的深厚经验,引入先进理念与技术,潜心研发,于2015年率先推出了冷板式液冷服务器TC4600E-LP。该款服务器是国内首款实现产品化、商业化的液冷服务器,也是国内首款实现量产和大规模商业应用的液冷服务器。

  实现精确制冷

  对服务器而言,CPU是其主要发热源,其次为内存,通过冷板式液冷技术,将制冷系统由机房外部转移到服务器内部,分别针对CPU和内存进行散热,实现了部件级的精确制冷。

  提高散热效率

  与空气相比,液体的比热容更大,导热系数更高,传热效率是空气的1000~3000倍,因此液冷散热效率远远高于风冷散热。

  节能降耗

  与传统风冷散热模式相比,使用液冷技术的CPU在满载工作时核温降低了20℃,降低了30%-40%的基础设施冷却能耗,数据中心整体 PUE 值可达1.2 以下。

  提升服务器性能

  在传统风冷散热模式下,CPU的运行温度高达80℃至90℃,而使用冷板式液冷散热的CPU,满载运行温度可维持在40℃至50℃。不仅可以使CPU的性能提高约5%,完全释放CPU的超频性能,并且可以延长器件的使用寿命。

  降低噪声

  经第三方权威机构检测,曙光液冷服务器TC4600E-LP(仅CPU采用液冷)的满载运行噪音小于60dB,比普通服务器降低约30dB左右。这得益于曙光液冷服务器采用液冷+风冷混合散热的模式,90%以上的热量可通过液冷方式带走,其它元器件散发的不到10%的热量仍然采用风冷散热方式,因此对服务器内部风扇的转速要求大大降低,风扇的功耗和噪声也随之减小。

  降低TCO

  采用液冷散热模式的数据中心,在初期建设时成本比传统风冷散热模式高15%左右(含服务器与基础设施)。但因液冷散热模式能耗更低,在正常情况下,采用液冷散热模式的数据中心运营3年左右,其间所节省的运营费用即可与初期多投入的成本抵消,其后每年所节省的运营费用都可视为正收益。除此之外,如果将采用液冷散热模式所带来的服务器性能的提升也折算到收益当中,那么约2年左右即可收回初期建设时多投入的成本。

  方便维护

  液冷服务器全部部件均采用热插拔设计,其安装和维护与普通服务器相近。同时,为保障产品的可靠性,所有接口部件均采用自封闭无滴漏的接口技术,且液冷系统内部具备完善的漏液监测和处理机制,大大缩减了维护成本,降低了维护难度。

  2.分布式存储——来自ParaStor存储方案的核心优势

  曙光ParaStor分布式存储系统是基于一种开放式的存储架构,将多台物理存储设备的存储空间虚拟成一个具有统一访问接口和管理界面的存储池。应用服务器通过统一访问接口(NFS/CIFS/POSIX/HDFS)获得所需要的存储资源,将用户数据按照一定的负载均衡策略,均匀地分布到后端的存储设备上,进而实现数据的并行读写,并获得更高的并发访问性能。同时,所有的存储设备在WEB界面中进行统一的管理和监控,大大减轻管理工作负担。

  液冷方案的关键优势:

  单一命名存储空间,集中化共享虚拟存储池;Scale-out扩展方式,性能和容量随数据存储节点数量的增加而线性增长;支持高并发IO,提供高达数百TB/s级的聚合带宽;单一命名空间支持千亿级文件数量;全冗余架构、纠删码等多种数据保护机制,无单点故障。

  如今,深圳市气象局超级计算平台的部署及运行,不仅大幅度提升了气象数据计算的速度和精度,让气象信息采集点倍数级密度增加成为可能,实现了天气预报精准化、精细化,更实现了对气象高风险区域的实时监测、实况通报及定时定点定量预估的“点对点”预报服务,满足了气象数据运算及预报多元化需求的全覆盖。同时,运算能力的跨越式提升,让大区域气象数据的整合处理、存储、查询、分析和统计成为可能,实现了气象趋势预报的深度挖掘和分析,让天气趋势的预测更加完善、更为准确。这是曙光高性能计算业务在气象行业应用、高性能项目的实施与部署、新型液冷解决方案的建设上又一份扎实的实战经验,也是曙光立足核心技术、赋能数字经济,坚持创新驱动、强化基础支撑,为中国企业数字化转型和数字经济发展提供创新空间和强大动力的经典案例。

  曙光,依托自身科研实力和创新能力,推动“百城百行”数据化进程,带动产业创新,服务社会转型。通过深耕计算产业的研究探索,不断打造计算、数据、智能、安全四大领域的数字经济核心技术,形成垂直一体化生态,赋能各领域数字化转型与产业变革,让全社会共享数据价值,为中国数字经济发展提供强劲动力。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: