中科院上海天文台高性能计算集群平台助力中国探月工程嫦娥三号任务
嫦娥三号探月任务于2013年12月2日正式启动,标志着探月工程已进入第二阶段。探测器的软着陆是登月计划中很困难的一项任务。落月过程中,中科院上海天文台在跟踪、测量、监视探测器动力下降时扮演了关键的角色。此前,天文台搬迁到一个新数据中心并向几个供应商咨询有关适用于嫦娥三号探月基础设施的技术要求。
中科院上海天文台VLBI指挥控制中心副主任设计师陈中说:“我们的任务是在为期20天的精密卫星轨道追踪中,进行数据的实时测量并把结果传送到北京航天飞行控制中心。该中心对探测器发送命令使其安全地自行控制降落。在这个过程中,我们用射电望远镜收集了大量的数据并依靠HPCC进行处理,同时在不到60秒的时间内把所需的计算结果传送到控制中心。”
HPCC满足航天任务的长期技术要求
中科院上海天文台选定长期合作伙伴戴尔作为数据中心的重要供应商。通过与戴尔基础架构咨询服务合作,天文台设计并配置了能够满足其带宽、高强度计算,以及性能需求的解决方案。陈中说:“我们花了相当多的时间与戴尔携手在项目的早期测试HPCC解决方案,并确保它符合我们的具体要求。戴尔能够提供完整的端到端解决方案,包括硬件、软件和涉及在月球软着陆的密集期所需的特定支持服务。”
M1000e刀片机箱的可扩容的、高密度的戴尔PowerEdge M620、R720和R910服务器,确保高可用性、高效准确的数据处理以及数据中心空间的充分利用。与此同时,戴尔网络M6220交换机和Mellanox M6301Q交换机确保天文台可以满足严格的要求,提供40GbE网络带宽。该解决方案还包括戴尔PowerVaultMD1200直连存储和戴尔Precision T7500塔式工作站,用来监控天文台与北京控制中心的视频流。减少碳排放也是数据中心的一个核心目标,通过部署戴尔刀片服务器所实现的能源节省满足了上海天文台的需求。
主动监控可降低风险
为确保天文台团队可以监控基础设施并提供积极主动的支持,他们安装了戴尔OpenManageEssentials。以往每台机器都需要人工监控,但OpenManage的系统管理控制台却提供了简单、自动化的硬件管理。通过使用OpenManage,戴尔团队在项目启动前一个月检查了所有的基础设施并对所有固件进行升级。这两项任务有助于大大减少可能影响探月任务的潜在风险。
高可用性助力关键系统控制落月
数据中心成功实施几个月后,HPCC平台在筹备降落月球所需的数据处理过程中发挥了关键作用。探测器数据通过网络实时传递到HPCC的处理平台,接着转发到后台系统进行精细处理和分析,以便在降落月面时减少风险。
通过与戴尔团队的广泛规划,天文台消除了单点故障带来的风险并实现了高可用性。为了确保天文台满足其应用程序的I/O密集需求,并避免HPCC的NFS瓶颈,该解决方案利用Lustre的并行分布式文件系统,通过在四个存储节点传播数据来提供冗余。这意味着在落月时用来控制探测器所需的数据即使系统发生故障也仍旧可以保持高度可用。陈中表示:“作为整个过程的中间点,HPCC提供了一项关键的功能。在系统完全不宕机的情况下,我们实现了高可用性,同时满足了实时数据的要求以及对探月工程的承诺。”
数据60秒内从上海天文台传送到北京控制中心
中科院上海天文台的VLBI数据中心把从嫦娥三号卫星接收到的数据经过复杂处理,然后发送到北京控制中心的时间差距从之前嫦娥二号执行任务时的10分钟降低到1分钟之内。陈中说道:“HPCC有着实时数据的要求。我们需要数据在60秒完成多点数据接收、海量数据处理分析和实时发送,此项时间框架是世界上从来没有的。但我们通过技术攻关,开发新算法,并配合戴尔的高性能硬件实现了快速传输数据的目标,最快时只用15秒。较为复杂的任务,比如在特殊的弧段,则需要大约45秒传送。”
快一半的响应速度消除宕机时间
戴尔在整个探月过程中提供高品质的ProSupportPlus白金专业支持服务,确保VLBI关键系统的稳定性。在关键任务执行阶段,戴尔提供了HPCC备件并派遣几位工程师到VLBI数据中心,以便快速解决任何由于部件故障引起的意外情况。“戴尔刀片服务器在我们的高性能计算中扮演了一个重要的角色。戴尔ProSupportPlus白金专业支持服务团队为我们提供了专属技术客户经理作为单点联系人,并设计制定了一个全面的支持计划。”陈中说。
戴尔设立了一个专属应急团队来参与支持嫦娥三号的探月任务。在技术客户经理的主动协调下,该团队在探月任务开始之前采取一系列预防性的措施,确保在任务执行阶段把服务响应时间和解决问题的时间降低了一半。陈中说,戴尔ProSupportPlus白金专业支持服务的专业技术能够立即诊断并积极解决可能影响任务的任何问题。零宕机很好地证明了该团队为天文台所提供的服务。
……
关注读览天下微信,
100万篇深度好文,
等你来看……