企业只要投巨资建设了灾备系统,以后就不会再出现业务中断和数据丢失了吗?其实,灾难备份/恢复与业务连续性有很大的差别,不能将两者混为一谈。“对灾备的错误认知是导致灾备建设失败的重要原因。”EMC公司资深业务连续性咨询顾问许瑀表示。
容灾不等于业务连续性
一些企业领导的固有思维是:容灾与业务连续性是一回事,只要拥有了灾备系统,就不应该再出现业务的停顿。其实,灾难备份主要用于应对较大的灾难事件,而不是针对局部的事故。业务连续性的概念更宽泛,无论是局部的故障,还是重大的灾难,都不能使业务中断。
许瑀表示:“灾难备份是业务连续性的基础,是企业多层次信息保护体系的重要组成部分。为确保业务连续性,企业应优先考虑建设基本的灾难备份和恢复系统。在‘9·11’灾难事件中,美国世贸中心里数百家没有灾难备份系统的公司彻底消失了。
这充分体现了灾难备份作为企业信息架构基础组成部分的重要性。在建立了完善的灾备系统后,企业可以考虑构建多层次的信息保护体系,进一步提升业务连续性水平。”
由于投入的资金数量不同,信息基础设施的状况不同,灾备建设的思路不同,不同行业的用户在建设灾备系统时,很难遵循一个统一的策略。不过,企业在建设灾备系统时应遵循这样一个原则,即无论采用何种技术手段,都必须保证数据的安全。这是灾备建设的底线。
重异地灾备轻本地保护
“实际上,导致信息系统出现中断,97%的原因是物理设备故障和系统的逻辑错误,只有3%的业务中断是由大灾难引起的。”许瑀分析说,“本地数据保护与异地灾难恢复都非常重要。有的用户认为,只要建设了异地灾难恢复系统就能抵御所有的灾难,因此忽视了本地的数据保护。这其实是一个误区。”
许瑀举例说:“某用户的磁盘出现故障,由于换盘时的错误操作导致了核心数据库的损坏。该用户利用本地备份系统恢复数据,恢复时间长达一周,而且丢失了两天的数据。”有用户盲目追求过高的异地灾难恢复RTO 和RPO 指标,要求RTO 小于4小时,RPO 小于15分钟。但事实上,该用户在进行本地数据恢复时,RTO 大于1 天,RPO 为24 小时。用户投巨资建设灾备系统,却不能减少因本地故障带来的损失,这其实是本末倒置。许瑀认为,只有将信息系统的本地数据保护和异地灾难恢复相结合,才能构成完善的业务容灾体系。本地数据保护与异地灾难恢复防范的风险不同,因此采用的技术手段、机制和措施也不一样。有些需要面向公众提供服务的系统,对灾难恢复的时间要求十分严格。但是大多数信息系统对灾难恢复等级的要求并不太高,通常可以接受几小时的灾难恢复时间。对于大多数用户来说,最重要的不是恢复时间的长短,而是数据能够100%被恢复。
RTO尧RPO指标过高
在建设灾备系统的过程中,RTO 和RPO 是两个非常重要的指标。那么,RTO与RPO 的数值是不是越小越好呢?“某银行针对其网上支付业务建设灾备系统时,提出系统恢复时间小于30 分钟(即RTO 小于30 分钟),只能丢失5 分钟的数据(即RPO小于5 分钟)。”许瑀表示,“我看到用户的RTO 和RPO 指标要求时,第一感觉就是这不现实。因为银行的系统出现故障后,为了恢复数据,技术人员通常要根据日志对活动账号进行分析,而所有的日志分散在多个业务系统中,处理这些日志可能要采用手工方式。完成上述一系列步骤,银行至少要花费一两个小时的时间。”
企业在制定灾备恢复的目标时,一定要从业务的实际需求出发,不能盲目追求过高的RTO、RPO 指标。过高的RTO 和RPO 指标不仅会增加灾备建设的成本,而且会让用户迷失在数字游戏中,对业务的保护无益。
忽视日常的运维管理
“2007年,某公司的核心业务系统发生意外宕机,多个关键业务数据库瘫痪。公司领导决定启用同城灾备系统。但是在进行恢复时,技术人员发现,容灾端数据严重滞后于生产端数据,灾备系统根本无法启用。”许瑀举例说,“事后,人们在追查原因时发现,由于系统管理员在进行灾备端测试时中断了灾备数据的复制关系,测试完成后又忘记了恢复灾备数据的复制关系,从而导致灾备系统无法启用。”
在某些企业中,灾备系统完全成了摆设。平时,这些企业的技术人员不对灾备系统进行定期检查,而且忽视了灾备演练。因此当灾难发生时,灾备系统很难发挥作用。
中金数据系统有限公司高级副总裁陈天晴告诉记者,他们曾经按照合同要求为某客户提供灾备演练服务,但是客户的相关人员总以工作忙为由推脱,造成服务合同迟迟不能履行。许瑀表示:“企业在建成灾备系统后,应该定期进行灾备演练,并建立完善的业务连续性计划(BCP),包括详细的灾难恢复计划及本地恢复计划等。”
……
关注读览天下微信,
100万篇深度好文,
等你来看……