断电之后会发生什么?

  • 来源:中国计算机报
  • 关键字:断电,柴油发电机,数据中心
  • 发布时间:2016-01-20 10:02

  去年一年之中,数据中心因为各种因素宕机的几起事故都引发了各种应用故障,那么一个数据中心停电之后将发生什么?

  数据中心断电?后果将是无法想象的。去年一年之中,数据中心因为各种因素宕机的几起事故都引发了各种应用故障,仔细算来,电缆挖断有之,供电系统故障有之,变电站维修停电也有之。那么一个数据中心停电后将发生什么?数据中心都有哪些自保措施?将有怎样的启动顺序?笔者近日就实地探访了一家高等级数据中心,看看其中到底有什么奥妙?

  如何选择代表性数据中心?

  中国的高等级数据中心多集中在北上广深等特大城市周边,北京新建的高等级数据中心多集中在大兴亦庄经济开发区,锁定范围之后,选择哪一家呢?

  笔者脑海里的模板首先是,那些曾经参观过的炫酷数据中心,比如湖水、海水、风冷制冷的那种,还有超级计算机HPC TOP500的那种,不过它们都太过特立独行,太不具有代表性了。

  这次,实地探访的必须代表“沉默的大多数”。一家新落成的高于T3标准的高等级数据中心——万国数据今年在亦庄新落的“北京二号”。

  “北京二号”数据中心运营负责人告诉我,首先,数据中心选址就很重要。要建在地震、海啸等地质灾害少的地方。此外,还不能靠近湖泊、机场、公共停车场等地。当然,还要有丰富的网络节点。

  那么,如果真的断电,一家高等级数据中心会经历什么呢?

  减少断电概率,双变电站供电

  “北京二号”数据中心比较特别的一点是双路变电站容量。这意味着什么呢?

  多数五星级豪华酒店也只有一个变电站供电,国家只有医院、机场等重要的公共设施才会设立两个变电站供电。“不能让手术台停电。”医院甚至配备三个变电站供电,而能够获得两个变电站供电批准的数据中心屈指可数。

  在常规计划停电情况下,“北京二号”会提前准备,主动在双路之间切换。如果是突发断电该怎么办?

  断电同时,在线启动直流电池

  一旦一路断电,会立即启动双路中的另外一路,启动间隙则主要由在线供电的电池放电,随时恢复随时退出。

  这就是“北京二号”的电池室,一共放置了7000块高压直流电池。一旦断电,电池同时在线启动,可单独供电20分钟。这些电池都可以通过检测装置实时监测温度、电压等参数,确保实时可用。

  这里为什么不像其他数据中心那样大量采用UPS不间断电源呢?该负责人认为:

  第一,UPS损耗较大,他算了一笔账:“比如说400kVA的UPS,功率因数0.9,如果他的效率是95%的话,那等于有5%损耗,400×0.9×5%,就是18千瓦每1小时,电费按照1元每千瓦时,1天432元钱,1台UPS一个月就损失1万多元,1年就会损失10万多元人民币。”

  但是高压直流由于减少了交直流转换的过程,要绿色环保得多。

  第二,很多数据中心采用大型UPS并机集中管理大量IT设备,一旦UPS故障就会影响大量IT设备;而“北京二号”采用分布式的高压直流,每个列头柜是一个高压直流的开关,供电IT设备范围要远远小于大功率UPS,客观上减少了集中式的供电隐患。

  断电几十秒后,启动柴油发电机

  如果双路均不能供电,则需要启动数据中心自带的发电装置——柴油发电机。柴发在断电几十秒之内可自动启动运行,这段间隙依然是直流高压电池放电。

  “北京二号”搭载了7台柴油发电机。按照数据中心容量设计共有12个变压器,1台柴油发电机对应2个变压器,只需6台柴油发电机,多出的一台用于备份冗余,从而做到了电力的双重备份:第一重,断电后启动柴油发电机,第二重,柴油发电机本身还具有6+1冗余设计。

  据悉,每台发电机采取1600千瓦中高功率设计,而没有采用最高功率,就是为了柴油发电机与变压器之间的“分布式”对应关系。在该数据中心负责人看来,分布式设计更为安全稳定。尽管断电几年可能也不会发生一次,而柴油发电机也是非常巨大的投资,但是为了提高服务等级,这笔投入是必须的。每年还会进行一次带载测试。

  断电同时,还需制冷

  除了IT设备需要用电之外,制冷设备也需要用电。因此,断电同时,一边需要蓄电,另一边则需要制冷。但是,制冷设备在重新接电后启动则需要三分钟时间,这一期间就要启动蓄冷罐放冷。这个大水罐的制冷作用就如高压直流电池的供电作用。

  这里也采用了不少绿色节能的设计。数据中心负责人谈到,自热冷却系统,每年约有180天时间使用自然冷却模式制冷。该模式下用电大户“冷水机组”处于备用状态,完全可以使用水泵和板式换热器通过水循环将热量放到室外。冬天,热回收装置可以把水冷设备带走的热量,通过热泵机组转换为办公室制热能源。

  断电同时,在线启动直流电池

  涨姿势了,原来断电之后,数据中心内部有这么多一系列的连锁反应,高逼格的数据中心本身就具有故障自愈功能。就如一台不停运转的“精密罗盘”,数据中心每一步的故障都牵一发而动全身,每一步的应急都需要多重保护和冗余设计。

  当然,除了设备、灾害之外,人为误操作仍旧是数据中心宕机的主要诱因。

  笔者在控制大厅也看到了很多SOP(Standard Operation Procedure)操作手册,并可视频化教学。这个就是软实力了,各个数据中心在大的标准框架下都会结合数据中心的实际情况、行业经验形成属于自己的方法论和管理模式。

  在云大潮的推动之下,大量托管数据中心、第三方数据中心崛起,社会分工进一步细化,将数据中心建设交给真正的专业人士建设运维是大势所趋。数据大集中,数据中心也在大集中。

  本报记者 陈翔

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: