走向块数据 要迎接挑战
来源:深圳特区报 更新时间:2015-05-08
  书名:块数据 作者:大数据战略重点 实验室 出版者:中信出版社 出版时间:2015年5月
  小 巴
  孤岛化的大数据,带来的最突出问题是数据采集分析的重复化,造成大量社会成本无谓消耗,也使得数据挖掘分析的水平长期难以提高。
  大数据时代已经到来。这句话已经被重复过无数次。先别忙着进行乐观的展望,我们现在所谈到的大数据,其实幅度和深度都相当有限,大量信息被封锁在信息孤岛上。各级地方政府和各部委,自上世纪90年代起上马了各自的电子政务工程,发展到现在,已实现基本的数据积累,各项业务办理和机关运转也切换到电子平台上。但各项电子政务工程并未实现真正意义上的信息共享,跨部门调阅数据很多情况下需要部门或地方领导出面,就更谈不上这些数据无障碍开放给社会和企业了。
  电子商务、金融、电信等行业的龙头企业,深耕大数据也很有成效,沉淀了大量的有效数据以及对于该企业价值不大,却有着较高社会应用价值的数据。这些信息和数据被认为是企业的核心资产,企业在加大信息采集、数据挖掘分析的成本投入同时,拒绝与其他企业、公共组织共享。
  一些政府部门已经意识到大数据的应用价值以及政府信息开放的必要性,却没有予以响应,而是通过授权或直接建立数据企业的方式,将自己掌握的公共数据打包转让给这样的企业经营。社会组织、企业、公民要想使用公共数据,就得为之付费。
  孤岛化的大数据,带来的最突出问题是数据采集分析的重复化,造成大量社会成本无谓消耗,也使得数据挖掘分析的水平长期难以提高。根据有限数据所作的实时判断和前瞻分析,很难避免细节甚至方向错误。对于创业者和初创企业来说,信息和数据采集的成本之高,常常超出他们的负担能力,因而信息孤岛造成的结果是抑制创新创业,现有的创业者和企业也将尽可能避免在信息和数据采集上投入过多成本,将更主要的精力放在营销噱头上。以大数据、云计算、智能设备为代表的新兴科技产业,美国的发展水平要超过我国,这显然不仅跟美国的产业起步较早有关,也源自美国的经济和社会数据开放水平更为领先。
  可以说,中国大数据发展已经走到了一个重要关口,如果继续延续现有的信息孤岛局面,政府、企业、社会组织、科研机构各自为政,数据挖掘分析的水平还是会继续提升,经济和社会应用价值也会体现,但必然因此滞后于美国等国家,且差距将也越来越大。与之相对应的另一种选择就是,积极推进信息开放、数据共享,实现数据资源的融合集聚,跟上大数据的发展潮流。
  中信出版社最近出版的《块数据》一书,针对条块分割“条数据”,提炼出一个对应的概念“块数据”,即以开放、共享、连接为特征的数据融合集聚机制,不但汇集了现有分隔化的大数据实体的数据资源,而且还借助智能设备、社交网络扩张数据来源。块数据围绕人及其活动而产生,不但要收集人的静态数据,还要记录人的行为活动数据,还将记录思想、意识和意愿数据。
  书中第三章探讨了块数据的重要价值。首先,这将带来新一轮的商业革命。传统产业将因此获得转型提升的最佳机会,创业者和初创企业的信息获取成本被显著降低,现有的大数据企业也将通过更为全面、实时水平更高的数据提高、数据挖掘分析特别是前瞻预测的水平。其次,块数据将改善社会领域的社会服务、社会议题管理、社会组织运行水平,使这个领域内的组织和个人摆脱目前受限于信息劣势的困境。第三,将推动政府管治提升,书中提出,政府自身的“思考方式、行为方式和与民众的互动方式”都将因此升级换代。第四,形成崇尚诚信、分享、开放的文化。
  但要真正走出目前的“条数据”,走向“块数据”,仍面临着诸多现实障碍。一是要改变数据生态系统和规则。无论在企业还是公共部门,数据文化都以保密为导向,开放是例外,要重塑数据文化的DNA,难度可想而知。二是数据结构化挑战压力较大。海量数据多以非结构化形式体现,要予以利用需要更为先进的数据分析技术和更科学的算法,这恰恰是中国企业的短板。三是块数据的数据安全问题和隐私安全问题,重要性紧迫性也在凸显。书中第六章提到的数据脱敏(数据保密、数据匿名化)可以有效解决数据安全和隐私安全问题,但究竟哪些、什么样的数据/隐私细节需要进行脱敏处理,这方面的理念和规则还没有统一。