容灾建设能否一劳永逸

  容灾(Disaster Tolerance)是一个比较宽泛的概念。一提到容灾,人们首先想到的是数据备份。对于企业来说,关键数据的丢失会在很大程度上影响业务的发展,同时造成严重的经济损失。但是,很多企业至今都没能真正理解什么是容灾,认为只要建立了备份系统,就可以高枕无忧了。容灾就是尽可能地避免或减少由灾难带来的数据损失和业务中断。备份和恢复是容灾中最重要的组成部分。

  容灾是一项系统工程

  从广义上讲,所有与业务连续性相关的内容都可以纳入到容灾的范畴中;从狭义上讲,容灾是指生产站点以外的冗余站点。当灾难发生后,生产站点受到破坏,冗余站点可以接管用户的正常业务,保证业务不间断。为了实现更高的可用性,许多用户甚至建立了多个冗余站点。

  衡量容灾系统有两个主要指标———RPO和RTO,RPO代表允许丢失的数据量,RTO代表系统恢复的时间。RPO与RTO 的值越小,表明系统的可用性越高,当然用户所需的建设投资也越大。

  哪些事件可以定义为灾难呢?典型的灾难事件是指自然灾难,如火灾、地震等,还有其他一些灾难,比如设备故障、软件故障、电信网络中断、电力故障等。此外,人为因素也可能酿成大祸,如操作人员误删除数据等。图中列举了企业中常见的故障和灾难。

  容灾是一项系统工程,而不仅仅是一项保持生产系统业务不间断的技术。不过,很多企业对容灾的关注仅停留在技术层面上,对容灾的流程、规范及具体措施等一知半解。一些中小企业为建设数据备份和容灾系统花费了大量人力和财力。但是在容灾系统建成后的几年中,企业没有遇到任何大的灾难,于是放松了警惕。很多国外公司在这方面做得非常好,尽管几年中都未遇到大灾难,备份用的磁带几乎没有派上用场,仍一如既往地搞好容灾的每一个环节,每月都对容灾方案的可行性进行评估,并进行演练。

  容灾系统的建设

  容灾系统的建设可以分成四个阶段。第一阶段袁部署本地高可用性解决方案遥最常见的本地高可用性方案当属双机和集群系统。双机容错系统一般采用共享磁盘阵列柜,当工作机出现故障时,备机接替其工作。但是,双机和集群系统只能保证系统的高可用性,一旦磁盘阵列本身出现单点故障,将影响业务的正常运转。由此可见,即使为关键业务系统配备了集群和双机方案,也不能完全保证数据不丢失,数据容灾是保障数据安全必不可少的手段。

  第二阶段袁实现数据容灾遥建设数据容灾系统可以分为以下几步。

  1.本地离线数据备份数据仅在本地进行备份和恢复,可将备份数据移到可移动介质(如磁带、光盘、胶片、硬盘等)上。如果觉得介质存放在本地不安全,用户还可以定期将介质以人工方式收集并运送到容灾中心。用户采用本地离线数据备份方式,不仅投资较少,而且可以利用应用系统本身的备份功能或者手工冷备份的方式完成对数据的保护。本地离线数据备份的缺点在于:备份工作需手动完成;对数据库应用进行备份时,可能要停止对外服务;备份介质的归档和恢复工作十分复杂,并且无法预计数据丢失的多少和恢复时间的长短,很可能造成数据无法恢复。

  2.远程在线数据备份对恢复时间要求较高且没在本地进行备份的企业,可通过远程网络直接将数据备份到容灾中心的存储池中。当灾难发生后,用户需要完成包括系统恢复、数据恢复、对外提供应用服务等在内的一整套恢复工作,所需时间为数小时或数天。远程在线数据备份可以实现自动备份和归档,并能通过网络自动将数据传输到异地,还可保留多份数据副本等。远程在线数据备份已得到了广泛应用。赛门铁克、CommVault、上海爱数软件有限公司等都拥有此类方案。然而,随着企业数据的爆炸性增长,一日一备的备份方式已无法满足关键业务对连续数据保护的要求,大数据量的备份工作无法在指定的备份窗口内完成,数据恢复的速度不够快,可靠性不高,还有可能导致还原失败。

  3. 数据复制为突破备份窗口的瓶颈,以持续数据保护(CDP)、快照为代表的新一代数据容灾技术应运而生。CDP 是一种基于数据连续时间点的技术,其作用是在故障瞬间完成任意时间点的故障恢复,从根本上解决传统备份恢复能力弱等问题。

  第三阶段袁建设应用级容灾遥应用级容灾系统有三个特性,即良好的容灾适应能力、容灾数据的实时性、容灾的可接管能力。数据级容灾是应用容灾的基础。与数据容灾不同,应用级容灾可以保证业务的连续性。应用级容灾系统可以提供不间断的应用服务,从而保证信息系统的服务完整性、可靠性和安全性。

  基于复制技术的应用级容灾是一种趋势。基于复制技术的数据保护正与传统的数据保护相融合,并成为保护虚拟服务器环境的重要手段。如今,传统的备份产品中也增加了管理复制和快照等功能。随着存储即服务和云计算逐渐流行,托管的复制服务变得更加常见。数据复制的效率依赖于带宽。因此,人们将针对WAN进行优化的产品,如思科、思杰、Riverbed、F5、Juniper、Packeteer、Silver Peak、Blue Coat的产品与复制产品一起使用,从而达到节省带宽的目的。

  第四阶段袁实现灾难恢复遥无论采用哪种容灾方案,其最终的目的都是为了更好地应对突如其来的各种灾难,尽量减少数据丢失,实现业务的快速恢复。《信息系统灾难恢复规范》将灾难恢复的能力划分成六个等级。最高的第六级容灾,数据丢失近似为零,业务恢复的速度为分钟级。对数据的可靠性、可用性要求很高的用户通常选择此种方式,比如金融行业的用户。但是为了实现第六级容灾,用户通常要投入巨资。

  企业在选择灾难恢复解决方案时,要充分考虑RTO 和RPO 指标的要求、实施费用、维护费用、灾难的影响等,并进行全面分析,这样才能找到一个适合自己的综合解决方案。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: