“起死回生”的管理
来源:信息周刊 更新时间:2012-04-13

 

人类是种奇怪的动物,往往很少能够从第三方的教训中吸取自己的经验。

                                

台风“麦莎”72小时狂袭中国百余城市,瞬间改变了千万人的生活;从美国“9.11”事件、日本神户大地震到东南亚海啸;从2000年9月中国银行收付系统突然死机到去年北京首都机场系统瘫痪误机6,000人;再到花旗银行最近丢失390万客户信息的“数据门事件”,直至6月9日北京恒泰证券股票交易系统出现故障迫使股民望“红”兴叹????

在这不确定的信息化年代,啸聚而来的“天灾人祸”不仅给政府、商业机构甚至个人直接造成巨大生命财产损失,也对信息化时代各类组织机构赖以生存和运转的IT系统与业务连续性管理(Business Continuity Management,简称“BCM”)带来毁灭性打击。

5月底,国务院信息工作办公室网络与信息安全组组长王渝次在中国首届灾难恢复行业高层论坛上指出:“在信息网络化时代,没有灾难备份与业务恢复计划的企业,在遭遇灾难事件时常常不堪一击,甚至可能随时崩溃。”

脆弱的系统
此次会议得到了银行、保险、制造等数十行业200多名IT主管、业界灾难备份专家及政府主管的积极响应。大家齐聚广东南海的目的,就是共商一个“小概率”但又“高风险”的热点问题:企业重要信息系统在遭受各类天灾人祸打击之后,如何迅速恢复并维持业务的连续性管理能力。

与会的企业高管们非常清楚,王渝次的话并不是危言耸听。根据顾能公司(Gartner)的调查数据,在经历大型灾难事件而导致系统停运的公司中,有五分之二左右的公司再也没有恢复运营,剩下的公司中也有接近三分之一在两年内破产了。

不过,“9.11”不但没能让摩根斯坦利公司(Morganstanley)消失,就是业务正常运营的恢复,也只用了短短的2天时间。其中的秘诀是,该公司设于美国新泽西州的完整业务灾难备份以及恢复系统,在关键时刻发挥了作用。

相比较之下,我国的金融机构防灾抗难意识及能力却极其脆弱,有时仅以一人之力就可以彻底破坏整个系统。2000年8月,发生了一起令中国银行刻骨铭心的事件:中国银行利川支行一名营业部主任对银行信息系统进行毁灭性破坏后,携款潜逃,导致银行数据丢失,业务陷入瘫痪状态。应对各种灾难与紧急事件,企业需要提前推行业务连续性管理。

不过需要澄清的是,恢复并维持业务的连续性管理中,灾难备份(Backup)与恢复(Recovery)是两个完全不同的概念。进行灾难备份的企业,在遭遇灾难后,未必能够迅速恢复,尽管前者对IT基础设施、信息技术与环境同样具有较高的要求,但企业要想在遭受灾难打击之后迅速“起死回生”,包括人员、流程、组织等非IT的业务连续管理计划、整体预案以及应急响应系统才是关键中的关键。

而国内相当数量的企业和机构,重视系统的备份,却忽视了尤为关键的灾难之后业务的恢复能力建设。

“BCM本质上是一个管理范畴内的问题。”据国内第一位也是目前唯一获得国际CBCP认证的灾难备份专家、万国数据服务有限公司(称“GDS公司”)副总裁汪淇介绍,国际灾难备份与恢复行业已形成相当完备的BCM(或称之为“BCP”)理论体系和方法论。

化解集中的风险
深圳发展银行是国内首家实现了生产中心(业务系统)数据逻辑大集中和与灾难备份及业务持续管理系统同步建设的企业。

深圳发展银行科技部总经理刘政权坦言,深圳发展银行之所以领先同行实施BCM系统,一方面是因为把脉到BCM系统正在逐步成为国际金融通用规则的趋势,譬如在英国,业务持续管理规划已经成为企业上市的一个必要条件;另一方面是因为银行业数据大集中下潜藏的巨大风险。

数据集中也意味着风险的集中。在深圳发展银行全行业务依赖于深圳一地单点处理的情况下,一旦深圳的电脑数据中心发生灾难,其全国范围中的全部分支机构几乎所有业务都将瘫痪。这将造成巨大的经济损失,且不说客户流失、声誉受损,甚至还有可能会因此引起社会的不安定。

通过对业务风险与冲击影响的详细评估,深圳发展银行选用了复合等级的灾难备份方案—对核心业务系统采用“零数据丢失”的最高等级数据热备份方案;而对于一些辅助业务则采用了比较经济的第二级备份方案,在灾难备份中心保留最新的磁盘、磁带,并且定期进行更换。

该系统自2002年5月投入运行以来,包括数据、数据处理能力、网络在内的整个核心业务处理系统已经过多次切换复制,重新恢复业务流程演习,结果令人振奋。刘政权说:“一旦遭遇灾难冲击,只要1个小时,我们的备份系统就可以顺利切换到灾备中心的系统开展正常作业。”

业务持续性管理
企业通过灾难备份中心构建BCM系统,不仅着眼于IT系统的备份与恢复,更重要的是包括隐含于其中的、涉及企业整体生命周期的一种业务连续性管理策略与应急响应计划。
 
在深圳发展银行灾备中心的建设过程中,历经启动组织管理,风险分析、业务影响分析,灾难备份策略,业务连续性计划的开发、实施和维护,公共关系的协调,公共管理机构的沟通6级BCM步骤与环节,这样保证了一旦遭遇灾难,系统快速切换和回退的能力。如此不仅能够帮助企业在遭遇危机时迅速恢复IT基础架构,同时还包括关键性业务的持续、迅速恢复并履行商业契约。

“业务停顿的后果是可怕的。”拥有10多年国内外银行和基金操作经验的海富通基金管理有限公司(下称“海富通基金公司”)首席执行官(CEO)田仁灿对此也深有感触。

这也是为什么在中国香港,如果没有灾难备份与BCM系统的金融机构都不能获得执业资格。“我们基金业倡导全年24小时不间断服务,业务处理系统决不允许中断,否则便意味着系统业务的停顿、收益的损失和客户的流失。”田仁灿说道。

证券业业务每停顿1小时,平均损失将达到650万美元;ATM系统中断1小时,平均损失为1.45万美元;而行业系统中断,平均每小时高达8.4万美元。这是市场调研公司战略研究公司(Strategic Rssearch Corp.)的研究报告所显示的数据。

不过,上马BCM系统后,海富通基金公司卸去了一个包袱。在过去,假设海富通基金公司总部所在的大厦起火,员工无法进入办公大楼办公,业务就面临停顿危机。运行BCM系统后,遇到短时间系统故障,分析师、操盘手等可以通过位于上海金茂大厦应急中心的6个终端进行业务操作;假如总部大厦业务中断超过24小时,业务人员可以马上飞到深圳灾难备份中心,启动备份和业务恢复系统。

灾难备份系统不可逆的单向备份模式,也保证了BCM系统中核心业务数据等的安全。海关总署信息中心副主任何瑜参说过:“海关的数据不怕公开,怕的是被篡改,一旦数据出现问题,将扰乱整个国家的经济秩序。”同时,在外包的BCM中心,日常维护人员和非授权人员“不接触用户数据”这一原则的存在,则保证了关键数据和业务系统的安全。

外包还是自建
田仁灿一提到海富通基金公司的灾难备份与BCM系统外包,眉飞色舞,认为这是“天下最划算的事情”。

假如选择自建,海富通基金公司的初始硬件投资要超过2,000万元人民币,通过外包,只要数百万元人民币就能看到成效。

深圳发展银行科技部总经理刘政权对此也深有体会。深圳发展银行原计划自建灾难备份中心,整体预算需要2??3亿元人民币,同时还需要耗费3年时间。而将灾难备份系统和业务连续管理系统外包后,只用了1年时间,系统就全部上线并开始享受灾难备份和业务恢复服务。深圳发展银行每年向GDS公司支付的年费,恰好相当于深圳发展银行自建灾难备份中心1年所需的运营费。

中国人民银行科技司安全处处长郭全明也指出,由于银行自建灾难备份中心的成本很高,仅建设经费少则数亿元,多的超过10亿元,其后每年投入到人员、维护等方面的费用几乎也要上千万元,成本非常高。因此,人民银行也鼓励商业银行以联合建设或是服务外包的方式,采用社会化的专业服务机构完成灾难备份工作。

据了解,上个世纪70年代,灾难备份应用在美国兴起,至今国外60%以上的灾难备份与BCM咨询服务采用的是外包服务。在美国被誉为“金融IT联邦”的Sungard公司,就是占据绝对优势的灾难备份与BCM外包服务商,日前鉴于对该公司良好前景的预测,该公司被多家财团以113亿美元收购,由上市公司变成了私人企业。

海富通基金公司、深圳发展银行专业外包服务的提供方,GDS公司是Sungard公司在国内唯一的合作伙伴,也是国内唯一一家通过公安部和人民银行“灾难备份服务企业资质认证”的灾难备份与BCM系统企业,并且于2003年获得了来自汉鼎投资公司的2,000万美元风险投资,而著名风险投资家汉鼎亚太董事长徐大麟亲自坐镇并担任GDS公司的董事长。

除了GDS公司,在金融等多个行业的灾难备份与BCM系统建设中, 国际商业机器公司(IBM)、EMC公司、惠普公司(HP)也是主要的硬件或软件产品供应商。

值得一提的是,在外包与自建这两条灾难备份路线背后,各种商业利益一直没有停止过较量:一方面,以GDS公司为代表的专业灾难备份与咨询服务商正在极力推动外包路线;另一方面,IBM公司、惠普公司等也在为中国企业推动自建灾难备份中心的步伐。前者以“低成本、高度专业化”作为其核心价值,而后者则是以卖硬件和软件产品作为驱动力。
不过,灾难恢复与BCM领域是一个专业门槛非常高的领域。在国际上,从业者必须经过极其严格的专业资质认证,到目前为止,全球获得CBCP认证的灾难备份专家只有1,200多位,而中国内地只有GDS公司汪祺一人获得此资格认证。对此,GDS公司的CEO黄伟深为自豪。

企业的困惑
企业用户也不无困惑:花上一大笔钱,如果三年五年不出事,BCM系统建设就派不上用场,建立灾难备份系统到底值不值?

“而很多领导生产任务都忙不过来,加上灾难几年都难得一见,对其高风险性自然认识不足。” GDS公司的黄伟也感到有些无奈。

另一个非常关键的原因是,尽管国家已经对金融、电信、能源等8个行业提出了BCM系统建设的指导意见,但是主管部门在法规上未对各行业灾难备份建设做出硬性的规定,很多企业仍存有侥幸心理。

“人类是种奇怪的动物,往往很少能够从第三方的教训中吸取到自己的经验。”海富通基金公司的CEO田仁灿深深担忧,灾难来临一旦,缺乏业务持续管理系统的企业将面临灭顶之灾!

BCM
业务连续性管理(Business Continuity Management,简称“BCM”),是一项面向商业机构或政府组织信息安全与风险管理的综合管理流程,它使组织机构认识到潜在的危机和相关影响,制订响应、业务和连续性的恢复计划,其总体目标是为了提高组织的风险防范与抗击打能力,以有效地响应非计划的业务破坏并降低不良影响。BCM系统的整体规划与实施包括信息系统的基础数据与应用及业务的灾难备份与灾难恢复计划。