人口普查信息化 探密1%人口抽查数据处理
来源:中国计算机报 更新时间:2012-04-14
 全国1%人口抽样调查于11月1日正式启动。这次的数据处理与以往有什么不同?所用数据处理系统又有什么新鲜之处呢?  

  张富民介绍说,1%人口抽样调查数据处理系统在ePRAS的基础上进行了小规模的升级和二次开发。

  11月7日是全国1%人口抽样调查正式启动的第七天。在以往参与的每次人口调查的这个时候,负责相应信息系统开发的国家统计局计算中心处长张富民都会比较忙碌,可现在他却颇有一些悠闲。张富民告诉记者,这在很大程度上要归功于国家统计局去年开发出的普查数据处理通用平台——ePRAS。

  ePRAS革除旧系统弊端

  ePRAS经济普查数据处理系统最早的正式应用,是在2005年1月1日开始的2004年经济普查中。在2004年经济普查中,应用ePRAS使整个数据处理过程非常顺利。ePRAS中的e有两重含义:Economic(经济的)、Extended(扩展的)。而SARP是统计系统从1989年就开始使用的一套软件,是ePRAS开发的重要参考。PRAS将SARP的字母倒过来排列,表示ePRAS与SARP间有着千丝万缕的联系,ePRAS是对统计系统自主开发的原有系统的继承和发扬。

  统计业务分为三类:普查、常规调查、抽样调查。这次的1%人口抽查,既是普查,也是抽样调查。张富民告诉记者,在2004年经济普查之前,国家统计局进行的每次普查都单独开发一套程序来进行数据处理。这样做有很多弊端:上次普查所取得的成果,下次普查没法继承;很难吸取经验教训,犯过的错误可能再犯;每个新程序都要培训、试点,基层的学习负担比较重;每次编制程序的时间短,完善的可能性就比较小,并且要花费大量的人力、物力。

  按照以往的方法,每次编制的程序规格都不统一,数据的时间序列很难形成,数据的格式也不统一。这样数据质量难以保证,数据本身的保存和进一步的深层次开发利用也很困难。因为只有这个程序才能够理解这种数据的格式,数据不能脱离程序独立存在。在备份历史数据的时候,只能把程序和数据一同备份出来。

  针对2004年第一次全国经济普查,国家统计局做了充足的软件、硬件准备。在硬件方面,国家的直接投入大概是8000万元,主要是给全国中西部地区23个省配备了HP的小型机——HP 9000系列的RP8420。另外,还配备了联想的PC机,确保每个县配备3台以上的PC机。

  针对软件系统的弊端,国务院第一次全国经济普查领导小组办公室提出,希望像硬件配备策略一样,通过一到两个周期的普查,逐渐建立起面向普查业务的数据处理通用平台。

  去年,张富民受命成为经济普查数据处理程序研制开发小组的组长,负责这一平台的开发工作。

  “壮烈的”开发故事

  从2004年3月14日到11月5日的近8个月时间里,来自国家统计局、基层统计部门和合作公司的50名左右开发人员,在北京顺义封闭开发出了这套ePRAS系统。谈起ePRAS的开发过程,张富民连连说:“太辛苦了,简直可以说是壮烈!”

  张富民向记者讲了一个测试员的故事。开发团队中,有一位来自合作公司的测试人员。当时很多需求尚不清晰,程序还很不完善,测试人员比较少,时间紧,任务重,这给了这位测试人员很大压力。他非常认真,责任心很强,晚上因为压力大而连续失眠,两个月内吃了100多片安眠药。

  ePRAS的开发原则是“以我为主”,即以统计系统为主,采用“三结合”的形式。所谓“三结合”,即国家统计局、基层统计部门与公司三者合作。当时的合作公司有三家:HP公司、上海联盈数码技术有限公司和北京久其软件股份有限公司。系统开发完成后,一位在日本工作多年的专家评估说,同样的情况下,在日本开发这样一套系统要五年时间。

  受益于通用平台

  ePRAS是基于J2EE开发的,实现了将单一的数据处理转为网络应用,从统计应用软件升级到统计网络应用系统,这样各个终端使用者可以直接修改权限内的数据。据了解,IT技术主要应用于调查工作中的数据处理阶段,数据处理系统理所当然地成为核心应用。

  通用平台开发成功后,国家统计局进行了五次面向全国的大规模培训,首先培训出1000多名省级业务骨干,再由这些业务骨干逐级向下进行培训,目的是使全国的数据处理人员在最短的时间内掌握好这套系统。由于充分考虑到了统计应用中的各种可能性,这个通用平台还顺利通过了在铁路、武警、军队、银行等行业、特殊部门的统计应用测试。

  1%人口抽样调查数据处理系统在ePRAS通用平台的基础上进行了两层开发:一是对平台进行小规模的升级开发,升级到1.5版;二是进行二次开发,专门针对1%人口抽样调查制度形成相应的业务描述文件,用这个业务描述文件去驱动平台工作。

  张富民高兴地说:“以前每次普查留给我们开发程序的时间很短。而现在我们有一个平台,就能以不变应万变。只是稍微做一些改动,进行一些二次开发就可以了。在明年年底开始的农业普查、2008年的经济普查中,我们还要用这个系统,我们争取每次都让这个系统上一个台阶。”

  ePRAS应用在调查阶段之后的数据处理阶段,先是将调查表信息录入电脑,然后进行编辑(做到机表一致,保证机器录入与实际表格一致)、逻辑审核(提高数据质量)、汇总(不同角度归纳分析,不是各部分加起来那么简单)。在后期的资料开发和利用中,也会部分用到ePRAS。

  张富民告诉记者,下一步,国家统计局要做ePRAS的数据处理补充平台DAAP(Data Access Analysis Platform)。另外,国家统计局还在进行统计数据库和统计元数据库的建设。到一定时候,这两部分会结合起来。

  ePRAS相对于SARP的改进

  据张富民介绍,与SARP相比,ePRAS有几个显著的改进:其一,数据处理能力强。SARP基于单机,只能处理比较少的数据量。而ePRAS基于网络和数据库系统,对于经济普查,能处理800万个基本单位及其专业调查表的相关信息。其二,跨平台,SARP只能在DOS、Windows两种平台上运行,而ePRAS还可以在Unix平台上运行。其三,ePRAS是基于国家统计信息网内部网的,是一个真正的网络版程序。以前,数据处理的方式是分别进行数据录入,之后把数据用磁盘拷出来,再进行合并。现在则可以通过ePRAS实现数据的集中管理,把原来分散、不统一的数据集中存放、管理起来,这是数据处理方式的重大进步。