号脉数据中心全生命周期

  阿里巴巴将数据中心建到千岛湖旁边,腾讯将数据中心深藏在山洞中,如今的数据中心除了不能上天,这下水入地似乎无所不能。这虽然是句玩笑话,但也反映出随着规模化、集约化、绿色化等理念的深入人心,数据中心一直在向着规模更大、速度更快、能效更高且永不停顿的目标前进。

  在数字经济时代,人们关注的目光都放到了数据和业务上,但任何转型与创新都离不开数据中心的支撑。数据中心的高效、稳定、高可用和自动化运维是业务连续性的重要保障。

  “可验证”的数据中心

  这并不是危言耸听。在大多数据情况下,数据中心保持平稳运行,我们似乎感觉不到它的存在,而一旦出现问题,就可能让企业伤筋动骨。时间回溯到2018年5月18日晚,北京某知名数据中心运营商在亦庄的数据中心两路市电全停,机房全部负载由柴油发电机供电维持,直到5月29日,该数据中心机房完全依靠柴油发电机带载近260小时。这让数据中心专业人士听到都感到后怕。这样的数据中心真可谓危如累卵,客户业务的连续性又从何谈起呢?

  随着云服务的兴起,我们越来越频繁地听到某某云服务商业务宕机的消息,AWS、阿里云、腾讯云等都曝出过云业务中断的消息,引起了社会的广泛关注,近期还出现了客户向云服务商索赔上千万元的例子。

  企业上云有利于未来业务的开展和创新,但是任何事情都有两面性,企业上云后如何才能更好地保证基础架构的稳定、可靠和连续性呢?其实,万变不离其宗,这样一个业务新课题落到数据中心层面,还是要依据数据中心全生命周期管理的理念,抽丝剥茧,从数据中心的规划设计开始,在建设、运维等各个阶段,做到有的放矢、精益求精,通过不断验证和持续优化,尽量减少故障隐患,保证数据中心在全生命周期中都能健康运行。

  施耐德电气IT业务部数据中心业务架构总监张子扬介绍说,施耐德电气为数据中心提供的全生命周期服务主要抓住四个关键周期:第一,规划设计阶段,施耐德电气可以提供咨询设计和设计验证服务;第二,在建设末端到接维过程中提供测试验证,保证设计所见即所得;第三,在运营阶段为客户提供永续运营的能力;第四,为数据中心提供二次评估。

  覆盖这四个关键阶段,施耐德电气的数据中心全生命周期管理服务能提供端到端的全过程管理,通过标准化、可视化的工具为客户提供全过程的规划、运营和升级服务,从而实现可验证性,降低运营风险。

  张子扬指出:“十年前,人们关注的是数据中心的可用性,但是现在可验证性成为更关键的因素。在数据中心的规划设计和建设阶段,企业应尽可能地采用一些先进的数字化技术、工具和手段,提升数据中心的可视性和可验证性。这就需要像施耐德电气这样的战略合作伙伴提供适合的解决方案、工具以及专业的技术团队。”

  施耐德电气在中国拥有36年的技术积累和丰富的实践经验,为许多大型数据中心的永续运行提供坚实的保障。这也让施耐德电气在实践中锻造出一套成熟的方法论,即WHOES工作法,包含识别设计需求、检查或发现实施路径、优化实施路径或技术、检查实施工程的工程语言合理性和检查工程文档的标准化程度。施耐德电气整个设计认证团队和测试认证团队都严格按照WHOSE法则推进数据中心项目的落地和实施,逐步提高数据中心的可验证性、可用性和能效。

  专业的团队、对行业的深刻洞察、成熟的工作方法论及丰富的实践经验,使得施耐德电气能提供更高质量的数据中心全生命周期管理服务。

  例如,河南中原云项目是政府和企业数字化转型的典型。当地的老钢厂、老电厂、老纺织厂都面临着转型的契机,很多人选择跨界做数字地产。在这个过程中,如何充分利用自身资源优势是一个值得深思的问题。中原云计划用现有电厂的余热实现数据中心的能源梯级利用。在规划设计的中间阶段,施耐德电气作为合作伙伴加入,凭借设计验证服务帮助客户对整体施工方案进行了有机梳理,使项目变成真正可以落地运营的三联供方案。如今,该项目已投运两年,当地政府和企业对这一成果十分满意。

  据统计,目前中国的数据中心超过50万个,规模仅次于美国市场。随着云计算的快速发展,IDC也在积极转型,国内托管数据中心的兼并与收购屡见不鲜。面对数据中心的规模化发展,如何通过规范化、标准化的服务满足客户对数据中心基础设施建设和管理的新要求呢?企业必须重视数据中心全生命周期管理。

  十年差距如何弥补?

  如果将数据中心的全生命周期再进行一下简化,其实也可以分成前后两个阶段:一个是数据中心的规划和建设阶段,另一个是数据中心的运维阶段。上文,我们主要是在谈数据中心的规划设计和建设,这是广大用户耳熟能详的,也是相对比较成熟的。只要能够跟随技术的发展与时俱进,并且遵循正确的方法论,大多数用户在数据中心的规划与建设阶段都可以轻松应对。

  需要特别提醒的一点就是,数据中心一旦建成就很难再改动,可能要使用几年、十几年甚至更长时间,如果在规划设计和建设阶段留下了隐患,在数据中心投入运维后再想追溯和修复,难度比较大。所以,用户应该在数据中心的规划设计和建设阶段,反复多次进行验证,用张子扬的话说,就是建立一个度量衡,通过验证不断与最初的设计目标进行对比、修正,提前发现问题、解决问题,让那些隐性的问题无所遁形。

  2017年的统计数据显示,50%的数据中心出现过异常,18%的数据中心曾经发生过导致应用中断的大型事故,数据中心的业务连续性一直是个严峻的挑战。归纳来说,导致数据中心中断的原因主要包括规划设计阶段的设计质量低下,以及运维阶段出现的体系流程不完善、人员资质和数量不足导致维护跟不上等。

  施耐德电气IT业务部全生命周期服务业务拓展经理蒋胜表示,数据中心运营人才各个公司储备都不足,中国的专业数据中心运营服务商与国外相比也有差距。美国数据中心基础设施运营经理至少拥有10年甚至更长时间的数据中心基础设施运营经验。

  与国外相比,中国在数据中心基础设施运营方面至少有十年的差距。

  许多人混淆了运维与运营两个概念。运维就是设备的基本运行和维护,而运营则与业务密切相关。一些数据中心用户搞不清数据中心运维和运营的区别,因此在选择服务供应商时,会在专业的数据中心运营服务商和普通的物业公司之间举棋不定。

  蒋胜表示,通常数据中心投入运营5年后,由于设备老化,各种问题就会逐渐显露出来。另外,大多数客户会将大部分资金和精力投入在数据中心建设阶段,而忽视了运维,甚至将数据中心全权交由物业公司代运维,大大降低了数据中心后期维护的质量,在故障发生时,很难及时准确地反应并采用有效措施。

  施耐德电气提供的数据中心管理是“运营”而非单纯的“运维”。施耐德电气不仅关注数据中心的高可用性和高可验证性,还重视业务连续性、设备可用性和能效管理。

  以联通数据中心为例,最初,施耐德电气接到代运营联通呼和浩特和廊坊云基地的需求。联通对施耐德电气提出的明确要求包括:第一、施耐德电气需帮助其建立符合联通要求的运维体系;第二,提高整个数据中心的可用性和可靠性;第三,施耐德电气要帮助其实现节能减排和优化成本。在施耐德电气的帮助下,联通云数据有限公司建立了自己的运维体系,提升了数据中心的可用性,不仅实现了零中断,而且将成本降低了30%。

  蒋胜介绍说,在运营阶段,施耐德电气可为客户提供多种分层级服务。第一层为维护集成服务,即服务的总包。这种服务适用于金融类的小型机房客户,可帮助客户提供对UPS、制冷、配电和安防设备的所有供应商的统一管理服务。第二层为维护管理服务,是维护集成服务的升级,施耐德电气将派遣一名服务专家到现场监督服务过程,并进行变更管理。第三层为关键设施运营,这是高度咨询属性的服务,将由施耐德电气的员工在现场提供数据中心运营服务。

  关键设施运营是最高层级的运营服务,从数据中心灰白区到楼宇管理层级,施耐德电气在后台可根据客户需求提供大量全方位、标准化的资源。

  数据中心的建设固然重要,但是后期的运维和运营同样不容忽视,两者相辅相成,形成一个完整的数据中心生命周期管理闭环。

  朗飞

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: