应急上演生死时速——腾讯首度公布“8·12”天津数据中心应急案例

  • 来源:中国计算机报
  • 关键字:腾讯,腾讯云,数据
  • 发布时间:2015-12-24 14:41

  “8·12”天津港爆炸事故已经过去了4个多月,距离中心爆炸点仅1.5公里的腾讯亚洲最大数据中心到底受损情况如何,又是如何度过这一劫的?经历了迄今为止唯一一例实际发生的国内超大型数据中心遇险事件,腾讯天津数据中心的应急经验和获得的启示是否值得数据中心行业的同仁们借鉴呢?

  “8·12”天津港爆炸事故已经过去了4个多月,距离中心爆炸点仅1.5公里的腾讯亚洲最大数据中心到底受损情况如何,又是如何度过这一劫的?

  当时,腾讯的官方说法只有寥寥几句,比如“部分爆炸气浪冲击到了数据中心建筑主体”,“发现个别故障点,影响范围较小”。

  不过,在不久前举行的第二届腾讯云+数据中心开放日上,来自腾讯云的专家首度曝光了天津数据中心在爆炸发生时现场摄像头拍摄的视频,仅仅22秒却极其震撼。此外,专家也详细介绍了数据中心的受损情况,以及现场应急处理措施。

  在数据越来越重要的今天,各个数据中心为确保万无一失,纷纷制定应急预案、灾备方案,并进行演练。不过,恐怕国内真正实操的也只有天津港爆炸事故周边的数据中心。目前,腾讯天津数据中心是国内唯一一家分享这一灾难应急实例的数据中心。

  受损情况大曝光

  记者去年曾经参观过腾讯天津数据中心,这是腾讯在亚洲最大的数据中心,占地8万平方米,服务器超过20万台。这一超大型数据中心在“8·12”当天扛过了这场灾难,所有业务运行稳定,难道是侥幸逃过一劫?要知道它距离中心爆炸点仅仅1.5公里。

  腾讯IDC平台部天津数据中心经理韩建军完整分享了天津港爆炸事故的经历。他首次曝光了一组照片,从中可以看到数据中心当时的受损情况,包括严重变形的大门、整体墙体的垮塌、二层IT机房和三层IT机房的损毁情况。另外,他首次曝光了当时的摄像头视频记录,主要涉及冷机房、值班室和IT机房。

  那么,8·12天津港爆炸事故带给腾讯天津数据中心具体什么损伤呢?第一,整个冷机系统宕机;第二,冷冻水管发生爆管;第三,地下水发生严重水浸。

  现场工程师经过20分钟的紧急排查,40分钟之内做出归纳总结,发现八大主要故障,包括50%单套冷机宕机、三号楼大量的冷冻水管漏水、BA系统失效、智能系统基本瘫痪、柴发系统受损、IT机房受损等。

  应急上演生死时速

  面对这种紧急情况,专业工程师需要做什么?

  据韩建军介绍,腾讯平时有多套应急预案,对应不同的故障采用对应的应急演习预案:比如,空调漏水紧急采用手动止动阀门,BA系统失效采用手动方式恢复系统正常运行……80分钟之内,系统恢复正常。

  他还分享了一组数据,重新回顾了从事件发生到处理的整个过程,在经历了爆炸事故发生后的126分钟内,对于数据中心的业务可谓“生死时速”。通常腾

  讯天津数据中心正常巡检都要90分钟,这次只用126分钟就进行了所有的故障处理,使得系统正常运行。

  90分钟后,腾讯才得到爆炸事故的确切回应,了解到是距离较近的危险品仓库发生爆炸,同时启动了对应的地震应急预案。126分钟以后,他们对整个园区内所有受损的危险区域做了完整的标识,现场秩序基本恢复。

  天津港爆炸事故既是对腾讯天津数据中心团队的考验,也带来了许多启示。首先,作为一个运营团队,必须有一套完整的应急预案。

  据悉,这套完整的应急预案是腾讯按照风险五步法,从风险的识别,风险分析,应急方案制订、应急方案执行,风险评估和改进。在2014年到2015年,腾讯天津数据中心发现风险点136个,针对这些风险点制订了66项方案,平时通过演练最终完成71项方案的执行。据韩建军透露,腾讯天津数据中心基本每周都有一次不同级别的演习,从工程师到一线人员全部参与。

  当然,也有人疑惑数据中心选址:腾讯为什么把数据中心建在危险品仓库附近?韩建军对此表示,腾讯严格按照数据中心选址规范,危险品仓库是腾讯天津数据中心落成一年后才建立起来的。这同时给腾讯很大启示,即“对于选址的评估工作不是做一次就够,一定要定期做,年年做,腾讯已在全国范围内的数据中心实行。”

  远程控制与动态迁移

  其实,“8·12”大爆炸事故第二天,腾讯数据中心面临的环境更加危险。为了预防再次爆炸的可能,所有

  数据中心人员都被紧急撤离到20公里之外,整个数据中心处于无人值守状态。腾讯天津团队通过远程控制系统对整个数据中心进行控制,并远程处理相关信息669条,异常报警26起。自然,后台的自动化系统功不可没,这就是腾讯自动化控制平台——阿凡达。

  据悉,腾讯天津数据中心有15300多个设备,143000个测点,如果对所有设计测点进行测试,会出现很多的报警信息。阿凡达平台的“不凡”之处在于管控信息立体化,不孤立看待设备和测点,建立设备之间的关系,在逻辑基础之上综合看待报警发生。

  尤其值得一提的是,腾讯天津数据中心运维专家的经验丰富,管理流程规范,通过管理工具沉淀到自动化系统中,推广到全新的数据中心。腾讯在全国目前拥有56个IDC,分布在13个城市,独立机房180个。

  此外,“8·12”天津港爆炸事故当天和爆炸之后的一周,腾讯一方面抢修受损的天津数据中心,另一方面把天津数据中心承载的大部分业务迁移动到深圳和上海的数据中心。这表明,腾讯已经实现了全国范围内IDC资源的动态调配。

  据悉,谷歌三年前已经实现全球业务的调配,比如夏季把主要业务迁到北欧的数据中心以节省能源、降低成本。腾讯此举也说明,通过足够的计算能力和网络出口能力,可以让数据和业务在全国范围的云数据中心中转换迁移。

  作为“8·12”天津港爆炸事故中遇险的国内超大型数据中心,腾讯的经验值得数据中心行业同仁关注。

  本报记者 陈翔

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: