印度CIO口述:危机中学会挽救数据中心
来源:IT168 更新时间:2012-04-14

 很多企业的CIO都是真正经历了IT危机后,才对制定合理的危机响应步骤有了真正的重视,可谓“不经一事不长一智”,不过这样付出的学费可能会比较高昂。

  尽管许多北美的公司现在都雇用来自印度的IT人才,但印度本地企业中的IT系统却还处于起步阶段。正如一个制造商的IT负责人所说的那样:“长期以来,印度企业对IT系统并不十分依赖,他们认为IT系统的故障会对业务带来影响。”

  只是在最近的八年中,经过重重磨难,IT系统才逐渐成为印度企业业务中的一个重要组成。企业需要IT部门提供的支持,CIO们才能将企业从危机中安然撤身。

  Tamal Chakravorthy是印度百事可乐公司IT部门的前任领导,现担任爱立信印度分公司的CIO。

  时光回溯,当Tamal Chakravorthy还任职于百事可乐IT部门的时候,有一天他正想去洗澡的时候,突然接到一个来自他办公室的电话——他的一台服务器宕机了。

  这样一件看起来充满巨大危机的事件并没有让他放弃淋浴。

  “我当时的第一反应是不需要有任何担心,”Chakravorty表示,“在我们的工作中,一台服务器宕机并不是什么大事,还不至于把我吓得从座位上掉下来。我只要让我的硬件厂商——HP来搞定就可以了。如果是软件问题,那么软件厂商的人来解决它。我想一定可以找到相关的人来负责它。”他回忆到。

  但是随后,其他服务故障的出现就像保龄球一样开始被击中。

  更糟糕的是这次故障发生得太不是时候了。“我记得当时有一场英格兰对印度的板球比赛正在进行,当时正处于半场休息时间。”Chakravorty这时意识到了事态的严重性,他从电话中得知:他的属下所知道的全部故障信息就是,服务器机房中的每一个机架都处于带电状态。“那时候我开始担心,工程师无法接触带电状态的机架,这意味着没有人可以估计破坏的程度。”

  这种情况符合他对危机的两个定义之一。“危机之一是当业务被中断的时候,你却不能清楚地了解到需要多少时间来修复。”不幸的是,这次故障也符合他对危机的第二个定义。“我对危机的另一个定义是,当企业必须要去做某件事情的时候,却因为IT故障或系统失灵而无法做。”

  公司业务对来自IT系统支持的需求万分紧急。当时正处于半场报道时间,各方面的人都在等待系统的恢复。“管理层都快疯了,而我却不能告诉他们我什么时候能让系统恢复正常,因为我不知道问题所在。”

  与此同时,无情的电老虎依然在“烘烤”着他的系统。“最先是我的SAP服务器,然后是邮件服务器、域名服务器、内网服务器和网站服务器,最后所有25台服务器全部发生故障。”他表示。

  后来电力工程师发现,需要4到5个小时才能停止电老虎继续毁坏服务器。“但是,当他们的任务完成后,我的问题却刚刚才开始。SAP服务器被摧毁了,而我的队伍却对SAP一无所知。”他解释道。IT团队不得不开始联系HP公司,由其工程师远程通过电话来指导他们完成对百事可乐SAP系统的恢复。

  整个恢复过程大约花费了9个小时,公司的18个顶级系统都在等待这个系统。由这个事件所带来的损失主要来自于两方面:延迟了报道和浪费了时间;而且导致百事可乐销售业务的中断,因为系统无法打印发票。

  “那个时候我没有预见到这种情况的发生。但是现在我可以了,”他自我挖苦地表示。“可以肯定的是,我们从中学习了很多。经历过那次事件,我了解到灾难恢复的重要性,而且我们也创建了危机处理指南。”

  如果现在类似的情况再次发生在Chakravorty身上,他可以大大减少破坏的程度。因为这次经历擦亮了他的眼睛。

  点评:从Chakravorty的经历来看,很多企业的CIO都是真正经历了IT危机后,才对制定合理的危机响应步骤有了真正的重视,可谓“不经一事不长一智”,不过这样付出的学费可能会比较高昂。