中国航空信息系统瘫痪考验应急管理
来源:计算机世界 更新时间:2012-04-13

 
  中国航空信息系统再度故障,全国范围内航空旅客滞留一小时,“部分文件损坏”成为事件发生的始作俑者。那么,非突发性因素成为突发性事件的根本原因何在?

  10月10日13时28分,中国民航信息网络股份有限公司(以下简称“中航信”)离港系统主机发生故障,包括北京、上海、广州在内的众多机场的离港系统整体性瘫痪,多个航班被迫延误,在时隔50分钟之后,14时18分中航信离港系统恢复正常,各机场航班也相继恢复起降秩序。

  如此大面积的系统瘫痪事件,无疑再一次给民航的应急管理敲响了警钟,因为,这已经不是中航信第一次发生类似问题。就在今年1月11日上午10时30分,中航信北京总部服务器出现故障,导致系统死机长达20分钟,成都双流机场受害最大,40分钟后系统才恢复正常 ,上千名旅客因此而延误了行程。如果这是一次长时间的系统瘫痪,损失将非常严重,在计算机系统应用越来越广泛的今天,加强应急管理,建立相应的备份系统,也由此更显得重要。

  备份系统存有缺陷

  据中航信运行部工作人员透露,在此次大面积机场瘫痪之前,中航信曾经做过一个针对纸质客票的备份系统,广州、上海等地的机场都拥有这一系统,所以,在10月10日的故障发生后,白云机场启用备份系统降低了损失,而没有建立备份系统的机场则应急能力明显偏低,事故中瘫痪了将近一个小时。

  在事故发生后,各方面在总结原因时,仍然没有对危害的重要性有所深刻认识。“此次离港系统瘫痪并没有给我们造成太大的影响,在上海的浦东和虹桥两大机场,都拥有相应的备份系统。”东方航空公司总经理助理夏毅在接受记者采访时说,“系统瘫痪后,我们及时启动了备份系统,很快就恢复了正常工作。”但对于系统为何瘫痪,他表示并不知情。

  广州白云机场的一位工作人员向记者证实,白云机场的备份系统在这次事故中发挥了不小的作用。但他们同时也表示,虽然备份系统可以暂时替代原有系统,但它在工作效率上比起原来的系统还有不少差距,许多人工操作过于烦琐。

  虽然对于拥有相应备份系统的机场,这样一个事故并不会造成太大的影响,但对于那些没有备份系统的机场来说,就没那么乐观了。中航信工作人员表示,对于那些没有备份系统的机场,只能改为人工执机,由执机人员手工打出旅客的订票信息,并核对其身份证号。这样一来,工作效率将会大大降低,严重影响了乘客的登机时间,也会造成更长时间的航班延误。

  中国民航离港系统建设于1988年,是引进美国Unisys公司的USAS产品,属于为航空公司和机场旅客服务的大型网络系统。中航信通过其全球分销系统(GDS)、离港控制系统和客位控制系统向国内各地区航空公司、旅行社和机场提供可靠、高效的旅行代理、机场登机手续办理和航空公司定位服务,系统规模列世界前5位,每天处理超过50万人次旅客的订座和离港操作。有统计数据表明,中航信订座系统和离港系统的每秒最高交易处理量近5年来呈持续大幅增长态势。

  据中航信技术人员介绍,目前中航信的生产系统是dorado 280主机和Unisys的CS7802主机,正是Unisys的CS7802主机上面运行着ICS(Inventory Control System,订座系统)和DCS(Departure Control System,离港系统)。因此,全国各大机场的离港系统都依赖这台CS7802主机,由于离港系统对实时性和安全性的较高要求,所以全国各大机场几乎所有的离港系统都由中航信来集中提供。

  鉴于这次事故,中航信运行部的这位工作人员透露,明年中航信将会筹备一个新的项目,主要就是针对电子客票的本地备份,以避免类似的问题再度发生。

  信息系统非常重要

  有专家表示,信息管理统一化能给行业和企业带来便利,使得信息管理更加方便,更容易降低运营成本; 但同时,过度集中的信息管理模式也可能带来过高风险。一旦系统的某一节点或环节出现故障,很容易引发“多米诺骨牌”效应,导致大面积甚至全局系统瘫痪。

  但即使如此,信息化集成已经成为全球趋势,专家也认为,不能因为风险存在就“因噎废食”,不必在信息管理统一化上过于踌躇。厦门航空的信息部总经理王洪建也认为,系统的瘫痪大大降低了工作效率,这让许多已经习惯了使用计算机系统的员工非常不适应,利用信息系统的优势由此体现得非常明显。

  广州新白云国际机场于2004年8月5日正式投入运营,新机场目前的年旅客吞吐量达到2500万,停机坪空间可以停放66架飞机,每年的货物吞吐量达到110万吨。目前的机场一般要运行400多套系统,机场内的业务流程甚至超过500个,而且这些系统和业务流程之间不能进行互操作。广州新白云国际机场的情况却非如此,借助中航信的信息系统集成了来自机场各个角落的信息流,然后把这些数据保存在机场中央数据库内,并向机场各部门提供信息。该系统还将为未来的协调规划、日常运营控制、集中计费和报表功能提供便利。10月10的离港系统瘫痪也是新白云机场投入使用后,第一次出现大型的系统故障问题。

  据南航广州白云机场的一位工作人员介绍,如今在白云机场登机的乘客已经有70%以上的使用了电子机票。截至2005年,我国境内民用航空定期航班通航机场135个(不含香港和澳门),其中绝大部分都在使用中航信的离港系统。虽然也有航空公司自行研发的离港系统,但由于销售系统由中航信提供,离港系统中很多旅客信息由销售系统采集获取,因此很难将销售系统和自建的离港系统统一起来。

  面对这种情况,再加上备份系统一时还无法建立起来,东方航空公司总经理助理夏毅表示,对技术的依赖已经开始造成手工操作的不熟练,而这将导致机场在应对紧急情况时,缺乏足够效率。为了应对这种突发情况,东方航空公司一直保持对相关人员进行紧急事务应对培训,以使工作人员能在系统瘫痪时,快速有效地为乘客办理离港业务。

  尽快完善备份系统

  据IDC研究报告预测,中国未来5年的IT外包服务市场复合年增长率达到39.9%,而涉及灾难备份领域的基础设施服务、业务持续性服务和系统管理服务的复合年增长率更是高达52.1%,是IT外包服务中增长最快的。灾难备份,特别是集中式关键业务的备份,已经成为关键业务执行部门的统一认识。

  IT业界在寻觅优化“业务持续”方案的努力已经曙光渐露。作为中航信的合作伙伴,Unisys通过在分立存储阵列提供数据备份及自动化故障切换支持,以便使得企业的“业务持续”方案在距离、速度及成本方面三全其美。“过往业务持续领域有一个众所周知的瓶颈,就是企业必需在三个条件中做出取舍,一是数据中心与灾难恢复站点之间的距离; 二是从灾难时间中恢复过来的所需时间; 三是企业愿意支出多少成本。企业最多只能选择做好其中两个条件,例如原有系统与应变设备距离越远,恢复速度就较慢。如果需要快速的恢复速度,企业便要做出更大的投入。”Unisys大中华区系统与科技事业部销售总监张和平解释说。

  但张和平的解释,仍然无法帮助中航信在系统瘫痪时脱离窘境,而全国范围内的航班及乘客延误,也已经发生。“这不是成本投入的问题,而是平时是否积极研究如何应对危机状况了,有关部门这方面的工作,显然没有做好,否则就不会出现如此大面积的瘫痪了。”有评论称。

  在日前记者向中航信询问事故原因时,该人士解释说,由于离港系统庞大,涉及的各方面因素也比较多,任何一方面出现问题,都有可能导致整个系统的瘫痪。不但前后端产品出现问题,如果整个系统日常维护做得不好,或者操作人员进行了误操作,都有可能出现系统瘫痪的情况。因为该系统处于24小时不停机状态,所以要在不停工的情况下查出问题所在需要很长一段时间。中航信表示,致使离港系统瘫痪的原因是主机文件损坏所致,而对于为何主机文件出现损坏,或者出现损坏后为何没有立即查出,中航信则没有做出说明。

  鉴于如今民航系统性强、信息化程度高的现状,必须尽快加强应急管理,建立起快速处理故障的保障体系。而这,可能是避免中航信信息化危机再度出现最好的方法。