电网企业信息系统容灾备份关键技术研究
来源:中国工业电器网 更新时间:2013-10-22
   1.概述
  如今信息化手段已经渗透到各行各业,成为管理、运作不可或缺的一部分,各行业和部门的信息系统以及电子政务系统已经成为国家的重要基础设施。在享受信息化在各方面带来的便利的同时,其潜在的在安全性和可靠性等方面的负面影响也同样值得关注。
  电网企业作为关系国家能源安全和国家经济命脉的重要骨干企业,在信息化方面的依赖程度日渐提高。集中式信息系统为电网企业带来一体化操作平台和便捷的业务管理等一系列好处,但样高度集中的平台也增加了其日常运营的风险,一旦系统由于自然灾难或不可预见的意外事件出现问题,将导致整个电网企业业务的全面瘫痪,造成难以估量的损失。因此,在集中式系统遭受打击之后,如何快速恢复正常状态以保障正常生产生活成为了当前企业面临的重要挑战。
  2.容灾备份的相关概念
  容灾备份是指采用某种机制对企业的各类业务信息进行完整的备份,在灾难发生之后受到损坏的系统平台能够迅速进行重建并恢复到进行备份时的状态,从最大限度上保障企业各种业务的正常运转。
  容灾备份技术是在节点层面上进行操作,能够保障整个节点的性能恢复。从对系统的保护程度上看,容灾可以分为如下3大类:
  1)数据级容灾:数据级容灾本质上就是数据的远程备份,具体来说是在异地建立一个或多个容灾中心,将待备份的数据存储到容灾中心,并定期对备份数据进行更新以保证数据恢复时能获得最新的数据。这种容灾方式机制简单且易于实现,但数据恢复时间相对较长。
  2)应用级容灾:应用级容灾建立在数据级之上,是将本地的应用系统的镜像运行在异地容灾中心。它通过实时的、连续的复制来确保应用系统的及时同步,这样可以保证关键应用在允许的时间范围内恢复运行。灾难发生之后,容灾中心的最新的应用能够直接迁移到本地,用户几乎感觉不到灾难带来的损失。
  3)业务级容灾:这是建立在业务层面上的灾备方式,它的对象包括IT方面的所有技术和维持IT架构的其他设施,甚至包括了业务办公所需的基础设备(如电话、办公地点)。业务级容灾能够保证在灾难发生之后,迅速重新建立一套与原先配置一样的工作场所,以维持正常的业务活动。
  3.集中式信息系统灾备实施及关键技术
  电网企业集中式信息系统灾备的实施是对企业系统安全性和可靠性的重要保障,其设计和实施的效果将对整个信息系统产生巨大的影响。下面对电网企业信息系统灾备项目的实施方案和关键技术进行详细分析。
  3.1 综合管理系统优化整合
  集中式信息系统强调对应用、平台的集中式管理,将原先分散的应用系统集成到一个统一的硬件环境下,实现信息化软硬件资源的优化整合。整合之后不仅能够加强系统的集约化、一体化管理,也能够降低系统容灾备份的难度,为数据集灾备的实施提供基础和保障。
  3.1.1 综合管理系统的整合架构
  针对电网企业信息系统的特点,设计出了综合管理系统软硬件优化整合的目标架构,如图1所示。
 
图1 综合管理系统整合架构
  如上图所示,整合的过程主要是利用企业现有服务器,安装VMWare ESX3.5虚拟机软件并构建HA,以实现虚拟服务器池,然后将综合管理系统的各应用逐步迁移其上,以提升目前应用的稳定性和设备利用效率,实现综合管理系统整合目标。
  3.1.2 系统整合风险分析
  系统整合的过程中随时可能出现各种意外状况,因此有必要在整合方案实施前对各种可能的状况进行分析并进行预案。经过对整合过程的分析,可得出该综合信息管理系统整合方案实施过程中可能出现的风险状况及应对方案。
  1) 在生产系统割接到目标系统环境过程中,目标系统可能会发生问题时,需要回切到原有系统。应对方案:保持原有生产系统环境在可用状态,如果之前先需要拆除部分原生产系统的,需要找环境先建立一套可用的系统做回切准备。回切工作主要集中在网络切换。
  2) 在原生产系统中改造数据库整合过程中,可能会出现覆盖原生产系统数据的风险。应对方案:在任何数据库改造工作之前,需要确保数据库服务器上的数据库数据已经备份。此外,在数据导入之前,需要检验数据的用户名、模式名称是否有重名的问题。
  3) 在目标应用服务器上部署应用包时,可能会出现被部署的应用不是当前生产上运行的最新版本。应对方案:在目标应用服务器部署应用包之前,需要和应用开发商及维护人员确认当前被部署的应用包与生产系统运行的应用包的版本一致。
  3.1.3 整合回退应急措施
  在综合系统整合实施过程中,尤其是各子系统上线割接时,如果测试环境无法使用并在停机窗口间无法找出问题,需要在各相关人员的配合下启用应急预案进行回退操作。回退操作主要针对三个方面进行——中间件整合回退、数据库整合回退和数据库数据不完整回退。
  在迁移各应用系统中间件应用过程中,如果在迁移截止时间之前未能按照预期实现当前的操作目标,则需要执行回退计划。中间件整合回退的关键是在实施前对应用进行备份。备份时首先向应用软件开发商确认各应用系统的应用软件包及其版本与兼容性,再停机备份各应用系统的应用文件目录。
    数据库整合之前同样需要先对原有的数据库进行备份。在数据库整合过程中,如果在整合截止时间之前没有按照预期实现当前操作目标,则需要进行数据库回退操作。另外,如果在校验过程中发现迁移的数据库对象或数据不完整,则需要删除相应的用户及其对象,重新进行用户创建及数据库导入。
    数据库迁移的过程中可能会不完整的现象,因此在迁移前需对原始数据进行备份并确认备份数据是可用的。测试人员验收数据库完整性过程中发现数据丢失时,需要导入原始应用中的数据库备份数据以恢复生产。
  3.2 SAN存储优化整合
    SAN(Storage Area Network)是一个集中式管理的高速存储网络c7,由多供应商存储系统、存储管理软件、应用程序服务器和网络硬件组成。对SAN的存储优化整合是电网企业软硬件资源优化整合工作的重要部分。
  3.2.1 SAN存储系统目标架构
    SAN存储系统大体上由SAN服务器、SAN存储和SAN互连三部分构成。服务器是整个SAN方案的前提,而存储基础结构是所有信息活动的基础,SAN互连解决的是服务器和存储之间的连接问题。SAN存储系统目标架构如图2所示。
 
 
图2 SAN存储系统目标架构
  3.2.2 SAN网络目标架构
    SAN存储系统架构的中间层有核心和边缘两种SAN交换机,其原因是系统采用了核心一边缘架构的二级部署模式。为了能够提供高的安全和扩展性,有利于集中管理和维护,可以将核心交换机连接存储设备,包括磁盘和磁带库设备,同时将边缘交换机连接服务器。详细的网络架构如图3。
 
图3 SAN存储网络架构
  3.3数据级容灾
    数据级容灾是灾备方案中相对比较容易实施的一种,也是应用级、业务级容灾方案的基础,因此数据级容灾的实施情况对后续灾备的开展有着重要作用。数据级容灾的目标是建立多个异地的容灾中心,对各单位的信息系统数据进行集中备份,为后续额容灾措施打下基础。
  3.3.1数据级容灾方案总体设计
    基于对国网灾备总体框架的分析与讨论,综合考虑电网企业现有系统框架后,制定出的电网企业数据级容灾的设计方案如下:
    1)生产中心在ERP及管控、营销、生产管理和一体化平台中的结构化数据主机上部署Oracle GcldenGate数据库复制客户端,以实现结构化数据到容灾中心的复制发起。
    2)除使用Oracle GcldenGate进行复制的数据库外,其他的结构化及非结构化数据都通过HP XP24000进行存储复制,存储在非XP24000中的中低端存储需要先虚拟化到XP24000中,再进行远程复制传输到异地灾备中心的虚拟化平台。
    3)在容灾中心建立相应的数据库主机群、存储池用来处理和存放企业的生产数据。
  3.3.2数据级容灾策略设计
    数据级容灾措施可向核心应用、一体化平台和综合管理平台应用系统提供异地数据级容灾保护,因此容灾中心能够在一定范围内提供数据保护和数据恢复能力。在容灾数据复制方面,同样需要采取一定的策略进行保障。首先应该在对现有生产影响最小的情况下对数据进行完整的、一致性的迁移。同时,迁移前应对数据进行精简以节省迁移时间、磁盘空间和传输带宽。另外,灾备中心处理能力的保障对数据级容灾至关重要。灾备中心处理能力设计策略应着重考虑如下三点:
    1)容灾中心的处理能力将优先考虑满足数据级容灾复制的最低需求,其中数据库复制主机按照2CPU , 8G内存进行配置,验证区主机按照典型网省的典型系统主机进行配置。
    2)容灾中心数据按照不同层级存储。
    3)现有生产中心业务系统与灾备中心相关灾备系统的的设备类型和操作系统版本应保持一致。
  3.3.3数据级容灾灾难恢复场景设计
    国网集中式容灾系统建设具有可行性、先进性又具有经济性等特点。但是,容灾系统的建立并不能解决所有问题。容灾系统是面向一定的风险场景,容灾具有其适应性与局限,不是所有问题均能够通过容灾解决。正确的定位容灾系统,有利于信息系统的建设与管理,利于业务系统的持续运行。适用于数据级容灾的场景如表1所示。
表1 数据级容灾适用场景
 130261903528956376_new.jpg (726×144)
不支持的场景如表2中所示。
表2 数据级容不灾适用的场景
 
  4.结束语
    电网企业信息系统及业务数据的安全直接影响到国民经济的正常运行,其安全保障和灾难恢复工作已经引起了国家和企业的重大关注。该文对电网企业信息系统灾备过程中的关键技术进行了分析介绍,具体包括综合管理系统优化整合、SAN存储系统优化整合以及数据级容灾,同时还对灾备实施中的突发状况进行了预案分析。由于数据级容灾备份是应用级和业务级容灾备份的基础,实施的效果将对后两者产生直接作用,因此本文着重对数据级容灾方面进行了较全面的分析。该文介绍的若干个灾备关键技术在电网企业实际的容备项目中得到了成功的实施并取得了预期的效果。