信息技术(IT)系统备份及容灾技术研究
来源:江苏通信杂志 更新时间:2013-08-14
本文介绍了备份和容灾二者的联系和区别,衡量容灾系统的技术指标主要有两个:RPO(恢复点目标)和RTO(恢复时间目标),根据不同的应用场合,可以将灾备系统分为4个等级,当前的容灾技术主要有磁盘阵列、磁带库/虚拟磁带库、集群技术及双机热备、持续数据保护等技术。
1 备份及容灾
    1.1备份
    备份一般是指利用备份软件将数据从磁盘备份到磁带进行离线保存(最新的备份技术也支持磁盘到磁盘的备份)的过程。通过备份,可以在原始数据遭到破坏甚至丢失的时候,对数据进行恢复,降低甚至杜绝数据损失,保证数据和系统的完整性。
    一套完整的备份系统通常包括备份软件、备份服务器和磁带3个部分。备份服务器上安装备份软件服务器端,应用服务器上安装备份软件客户端,按照预先制定的备份策略,自动或手动地将主机数据备份到磁带上。具体的备份策略制定、备份介质管理以及一些扩展功能的实现,都由备份软件完成。
    其中,备份策略的制定是备份工作的重要组成部分,它决定了备份工作的工作量。常用的备份策略有3种:全量备份、增量备份和差量备份。
    全量备份,是对指定的数据集进行一次完整的备份,备份的数据量和数据集的数据总量相等。
    增量备份,是在上一次备份(全量备份或增量备份)的基础上,对所指定的数据集在上次备份后发生了改变的数据进行备份,备份的数据量较小,需要的时间较短。
    差量备份,是在上一次全量备份的基础上,对所指定的数据集在上次全量备份后发生了改变的数据进行备份,备份的数据量通常小于数据总量。
    全量备份是最完整、最安全的备份方式,使用全量备份,一次就可以将数据完整的恢复过来,缺点是耗费的时间与空间较多;增量备份所需的时间与空间较少,通过较小的代价保存多个时间点的数据状态,但是单一增量备份无法对数据集进行恢复,要恢复到某次增量备份时的数据状态,必须将该增量备份之前的全量备份和所有增量备份依次进行恢复;差量备份同样存在这个问题,要恢复到某个差量备份时的数据状态,必须先恢复该差量备份之前的全量备份。
    1.2容灾
    广义上,任何可以提高系统可用性和业务连续性的活动,都可被称为容灾。狭义层面上,容灾是指在生产站点之外,建立与生产站点功能相同的冗余站点,当生产站点发生灾难时,冗余站点可以快速接管业务,实现业务的连续性。
    从对IT系统的保护程度来讲,可以将容灾分为两个级别:数据容灾和应用容灾。
    数据容灾是指在异地建立一个数据系统,该系统是本地关键数据的可用复制,在本地数据及应用系统发生灾难时,通过该数据系统进行恢复,确保数据的安全性。该级别的灾难恢复时间较长,且只能保证数据无丢失,无法保证应用和业务的连续性。
    应用容灾是在数据容灾的基础上,把业务处理能力也复制一份,在备份站点建立起业务系统的备份,当生产站点发生灾难时,备份站点快速接管业务,保证系统的不间断运行,实现应用和业务的连续性。建立一个应用级别的容灾系统是比较复杂的,不仅需要备份数据,还需要包括网络、主机、应用、甚至IP等资源的支持,以及各种资源之间的良好协调。
    1.3备份和容灾的关系
    备份和容灾都是存储领域的重要组成部分,二者有着密切联系。首先,二者都包含数据保护工作,备份多采用磁带方式,性能低,成本低,容灾则使用磁盘进行数据保护,性能高,成本高;其次,备份是存储领域的基础,一个完整的容灾方案中必然包括备份;最后,备份还是容灾的有效补充,容灾系统中的数据始终在线,存储有被完全破坏的可能,而备份提供了最后一道防线,如果在线数据丢失,还可以从备份中对数据进行恢复。
    二者的区别在于各自的关注对象不同,备份关注的是数据安全性,容灾关注的是业务安全性,具体来看,容灾和备份的不同主要体现为。
    ·容灾主要是应对火灾、地震等重大自然灾害带来的数据破坏,因此生产中心与灾备中心之间必须具有一定的安全距离;备份是在同一数据中心进行。
    ·容灾不仅保护数据,还能有效保障业务的连续性;备份只保护数据。
    ·容灾保证数据的实时完整性;备份只能对备份时间点以前的数据进行恢复。
    ·容灾系统的故障切换时间非常短;备份系统的恢复时间一般比较长。
    ·容灾是在线过程,备份是离线过程。
2 容灾技术分析
    2.1技术指标
    衡量容灾系统的技术指标主要有两个:RPO(恢复点目标)和RTO(恢复时间目标),RPO表示灾难发生时允许丢失的数据量,RTO表示系统的恢复时间。
    RPO针对的是数据丢失,RTO针对的是服务丢失,RPO与RTO越小,系统的可用性就越高,但二者没有必然的关联。RPO和RTO的合理制定,需要以风险分析和业务影响分析为前提,同时结合实际业务需求来完成,二者的基本关系如图1所示。
 130167775800827629_new.jpg (667×276)
图1 RPO和RTO示意图
  2.2容灾等级
    设计容灾备份系统需要考虑的因素很多,如备份/恢复数据量大小、生产中心和灾备中心的距离、灾难发生时要求的恢复速度、灾备中心的投入与回报等。根据不同的应用场合,可以将灾备系统分为4个等级:
    1)第0级:本地备份、本地保存的冷备份。
    这一级的容灾实际上就是本地数据备份,数据备份在本地进行,备份磁带在本地保存,容灾能力最弱,无法防御能对生产中心实际场所造成破坏的灾难。在这种方案中,最常用的备份设备就是磁带机,根据需要可以是手工加载磁带机或自动加载磁带机。
    2)第1级:本地备份、异地保存的冷备份。
    这一级的容灾是在本地将数据备份,然后把备份磁带送到异地保存。若系统发生灾难,则从异地取回备份磁带,利用备份磁带对系统和数据进行恢复。这种容灾方案也是采用磁带机等存储设备进行备份,磁带设备的选择可参见前面介绍,也可以选择磁带库、光盘库等存储设备。
    3)第2级:热备份站点备份。
    这一级的容灾是在异地建立热备份点,通过生产中心和灾备中心之间的网络连接进行在线数据备份。即通过网络以同步或异步的方式,把生产站点的数据备份到备份站点。当出现灾难时,备份站点可迅速接管生产站点的业务,从而实现业务的连续性。
    4)第3级:活动互援备份。
    这一级的容灾与第2级都采用了热备份,不同的是主、从系统的关系不再是固定的,而是互为备份。生产站点和备份站点分别在相隔较远的地方建立,同时处于工作状态,并相互进行数据备份。任一个站点发生灾难,另一站点都可快速接管之。在这两个站点间的连接中通常还提供冗余通道,以备工作通道出现故障时及时接替。采用这种容灾方式的主要是资金较为雄厚的大型企业和电信企业。
    2.3常用容灾技术
    2.3.1磁盘阵列
    很多服务器都使用磁盘阵列来提高数据的安全性,常用的有RAID1(独立磁盘冗余阵列1)、RAIDS,RAID6等,分别为磁盘数据提供了不同级别的保护,为信息系统提供了基础的数据保护,当单块磁盘出现故障时,通过磁盘阵列对数据进行恢复。
    但其缺点也比较明显。首先,它无法实现业务的连续性,在数据恢复期间系统无法提供服务,对于由于服务器其他部件故障导致的宕机或其他原因导致的业务停滞,它也无法解决;其次,它只能解决单个服务器问题,不是一种集中解决方案。
    2.3.2磁带库墟拟磁带库
    传统的磁带库以及近年出现的虚拟磁带库技术是一种为超大容量数据提供的存储备份方式,能够以较高的性能和较低的成本为异构系统提供存储、归档和备份,广泛应用于银行、石油、军队等需要海量数据存储的行业和部门,便于备份和保存。
    这种备份方式是基于数据层面的备份,与应用系统无关,因此它可以为由异构应用构成的系统提供统一的、集中的数据存储和备份。但磁带库技术只是单纯的备份技术,它不能为业务系统提供业务的应急恢复,在数据恢复期间业务是停滞的,即它只能保证数据的容灾,不能保证应用的容灾。
    2.3.3集群技术及双机热备
    集群(cluster)是指由一组相互独立的计算机通过高速网络连接组成的一个计算机系统。每个群集节点(集群中的计算机)都作为独立服务器运行自己的进程,进程之间可以相互通信。集群技术的出发点是为了构建一个具有更高可用性、可管理性和可伸缩胜的计算机系统。一个集群包含多台拥有共享存储空间的服务器,各服务器之间通过局域网相互通信,当一个节点发生故障时,它所运行的程序由其他节点自动接管,所有节点协同合作向用户提供应用程序、系统资源和数据,并以单一系统模式进行管理,在客户机看来就像是一个系统。
    其中,只有两个节点的高可用集群又称为双机热备,即两台服务器互相备份,当其中一台出现故障时,另一台自动迅速接管业务,从而在不需要人工干预的情况下,保证系统能持续对外提供服务。双机热备是集群技术中最简单的一种情况。
    虽然集群技术能够达到数据和应用的双保险,但它也有弊端:它无法避免数据误删除、逻辑性破坏和自然灾难,且代价高昂,难以统一和集中管理。
    2.3.4持续数据保护
    持续数据保护(CDP)是一种在不影响应用系统运行的前提下,持续捕捉和跟踪目标数据所发生的任何变化,并可以将数据恢复到此前任意时间点状态的技术方法。CDP技术通过在操作系统核心层中植入文件过滤驱动程序来实时捕获所有文件访问操作,对于需要CDP连续备份保护的文件,当CDP管理模块经由文件过滤驱动检测到其进行写操作时,将文件中数据发生变化的部分连同当前的系统时间戳一起自动备份到存储设备,任何一次的文件数据变化都会被自动记录,因而称之为持续数据保护。
    CDP技术是对传统数据备份技术的一次重大突破。传统数据备份技术专注于对数据进行周期性备份,因此一直存在备份窗口、数据一致性以及对生产系统性能的影响等问题。CDP则提供了全新的数据保护方式,系统管理员无须关注数据的备份过程(CDP会不断监测数据变化,自动实现数据备份),而是仅仅需要在系统发生灾难后,简单地选择需要恢复到的时间点即可实现数据的快速恢复。