大数据时代的政务管理
来源:中国电子政务网 更新时间:2014-03-03

原标题:迈向信息化政府——大数据时代的政务管理

哈佛大学达文波特说:大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。任何一个组织,如果早一点着手大数据的工作,就可以获得明显的竞争优势。怎样利用大数据创新政务管理呢?
 
2013年7月25日,郭永宏先生受邀为湖北省十堰市委中心组学习授课,下文由当日演讲实录整理而成。

一、当今世界已进入大数据时代

现在世界已经进入了大数据时代。什么是大数据呢?大数据是指对海量数据进行智慧分析并且预测结果的行为和思维方式。以2012年的互联网为例,每天有2940亿封电子邮件发出,如果采用20多年前寄信的方式,需要美国邮政局处理两年;每天有200万篇博客发表、2。5亿张照片上传到Facebook;每天有86。4万小时的视频上传到Youtube,如果连续播放需要770年,这一天产生的信息量,可以装满1。86亿张DVD光盘。

《大数据时代》的作者舍恩伯格说,数据量在过去25年当中急剧增长,所以就形成了现在的数据雪崩。1987年,模拟数据量是26亿,数字数据量是2000万。2007年,模拟数据量是186亿,数字数据量是2760亿。今天,模拟数据量占比已经不到2%,模拟数据很难被再处理、再应用,而数字数据可以不断地被重复应用,数字数据的大量产生让计算机处理成为可能。

什么时候开始爆发大数据呢?我们什么时候进入大数据时代呢?《大数据时代》这本书是去年12月份出版的,作者认为,世界进入“拍字节(PB,Petabyte)是大数据爆发的临界点”。计算机上最小的数据单位是一个字节,一个英文字母或者一个阿拉伯数字就是一个字节,一个汉字相当于两个字节。最早我们知道的是KB,就是千字节,MB是百万字节,GB是亿字节。世界进入大数据时代,后面还有EB、ZB等等,KB<MB<GB<TB<PB<EB<ZB<YB<BB<NB<DB。

中国国家图书馆藏书是2631万册,这相当于41TB,美国国家图书馆是1.5亿册,相当于235TB,一个PB相当于4.36个美国国家图书馆的数据量。现在新提出来一个概念,叫数据宇宙。据有关方面预测,从现在到2020年,数字宇宙将每两年翻一倍,到2020年,全球的数据量会达到40ZB,人均数据预计将达5,247GB。现在,大部分数据没有得到充分保护。2012年只有35%的数据被以某种形式进行保护。到2020年时,近40%的信息将会被云计算“触及”。也就是说,数据在产生、传播和处理应用的过程中,肯定在某一个环节被以云计算方式来展现。

大数据有四个特征即“4V”。一是Volume,数据量巨大。2007年的数据量是1987年的100多倍,这么大的数据量对过去传统的存储技术产生了挑战,如果按照大数据时代的要求,现在的存储方式肯定是不能适应的,而且成本巨大。将来唯有储存到某个云计算中心或者云存储中心,才是最便宜最方便的。二是Variety,数据的类型多。各种各样类型的数据都被展现出来,有数字、图像、声音、文本等各种各样的形式。三是Velocity,速度处理的要求高。业内的“一秒定律”认为,各种处理必须在1秒钟内完成高速实时处理。四是Value,价值大、密度低。对于大量的数据我们可能不能在很短的时间内分析出来,可是里面又藏着巨大的价值,所以需要“沙里淘金”。

大数据是从哪来的呢?现在分为3类:有人和人之间,比如两人之间的沟通;人和机器之间,比如我们操作电脑发邮件等等;还有就是机器和机器之间,比如物联网。数据大部分都是来源于传统的互联网、桌面电脑、移动互联网以及物联网,还有云计算产生的数据。尤其是移动互联网增长迅速,根据思科的统计,全球移动互联网流量增长的复合增长率是年均66%,2012年底,移动互联网的流量已经占互联网总流量的13%,这些都是源于智能手机、平板电脑的大量增长。2011年,智能手机出货量超过PC,2013年一季度中国智能手机用户已经达到4.2亿。初期,手机只有电话功能,那是大哥大时代;到GSM数字手机出现短信功能,后来手机开通GPRS功能就可以上网,进入2G时代;现在是3G时代,速率达到2-7M;4G将是70-170M的速率。不同时代的区别,主要体现在数据传输速率上。

大数据的要义是什么呢?《大数据时代》作者舍恩伯格讲,大数据跟我们传统的思维方式不一样,我们过去追求的是因果关系,追求的是“WHY——为什么”,大数据时代最大的转变,是放弃对因果关系的渴求,而关注相关关系。也就是说只需要知道“是什么”,而不需要知道“为什么”。比如,美国是飓风经常发生的地方,大数据显示,发生飓风后人们会倾向于买两种东西:手电筒和小饼干。手电筒万一停电了用得着,为什么还要买小饼干,有些人百思而不得其解。但商家只需要知道买手电必买小饼干,或者发生飓风后必买小饼干,所以一旦发生飓风,他们就把手电筒和小饼干摆在最显眼的地方出售,而不用问为什么,其实知道为什么也没有多大用处。我国讲究“因缘”关系,比如儒释道都讲求“因缘”、“因果”,而大数据时代对其做了一个改变,因为要追寻原因太复杂了。

二、大数据的应用价值无限
2011年5月,麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个新领域》报告,认为:大数据将在政府公共服务、医疗服务、零售制造等各个方面得到广泛应用,而且会产生巨大的社会价值和产业空间。文中从契合度和应用可能性两个角度分析并得出结论:政府机构与大数据有非常高的契合度,而且拥有非常大的应用可能性。美国总统奥巴马说大数据是“未来的新石油”,他要求打破政府各部门、政府与民众之间的“信息孤岛”,实现数据共享,构建跨系统、跨平台、跨数据结构的政府综合信息处理平台;实现政府内部纵向、横向的流畅协同;缩短处理响应时间,提高工作效率,并使得政府信息的经济价值得到最大化。现在,人们普遍的观点是:数据是能挖掘潜在价值的软资产,比固定资产更有价值。2012年,达沃斯论坛发布的报告《大数据 大影响》宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样,叫数据资产,赛过黄金。

大数据的应用是非常多的。在市场推广方面,可以做精准营销。比如,美国的第二大百货公司Target意图抢占先机、占领孕妇市场,于是他们开始追踪、搜集孕妇在怀孕期间一般会购买的产品数据,发现她们第二个妊娠期开始后买的东西有很多共同点,所以就设立了21个指标,根据这些用户购买的产品情况来判断用户是否怀孕,然后进行精准营销。

在票房预算、催生新行业这方面,大数据也有很大的应用价值。比如,去年《1942》刚上映的时候,许多人很看好,预测票房收入可能会超过7亿。但是新影数讯公司通过大量的数据分析以后得出结论:票房不会超过4亿。结果,最后电影票房是3。6亿。现在,《泰囧》、《致青春》、《中国合伙人》这些电影剧本是怎么产生的,怎么会这么受欢迎呢?实际上,现在影视业在选剧本的时候就已经运用了数据分析。网上哪本小说点击量大、阅读量大,就从这里面选剧本改编。所以,《中国合伙人》、《泰囧》这些电影就会有很好的票房,而不是像以前那样导演或制片想到什么就拍成电影。

在银行金融领域,可以用大数据来检测欺诈。比如,先设定模型:信用卡在短期内,离上一个消费地很遥远的地方产生多次消费,就会被判断为欺诈或者是盗窃,会通过拒绝使用来有效保护信用卡所有者的利益。

统计局过去运用的是抽样调查,因为海量数据的使用成本太高。现在,Google公司每天大约有200亿个网页搜索,而且他们经过分析以后能精准地推送广告,这打败了过去传统的广告方式,一年可以为它带来2300万美元的收入。还有亚马逊公司,通过大数据的分析,挖掘每个用户的兴趣偏好。比如,你想买《大数据时代》这本书,很可能会在网上淘这本书,亚马逊公司看到之后,就会给你推荐有关互联网的其他书籍。过去亚马逊是做书评系统的,后来推荐系统比书评系统要受欢迎得多,而且有价值得多,所以公司的销量也在大幅度增长。

瑞士一家电信运营商使用大数据进行客户保有。该公司通过对电话往来情况分析发现,通话用户和上网社交一样,也有一个社区领袖。用户领袖使用哪个公司的号,会导致他的追随者、大众跟着用这个公司的号。找出这些人之后,该公司就只对这个人有优惠,其他人没有。因为其他人没有影响力,所以不给优惠。这样有利于节省营销成本,提高效率。对运营商来说是实现客户保有,对政府、银行也有类似这样的情况。网上的“社区领袖”、运营商的“消费领袖”、生活中的“舆论领袖”,对于防范各种事故和加强社会管理是非常有好处的。

在社会维稳方面,美国中情局建有自己的“私有云”,并且使用一系列云计算软件,发现相关规律,帮助他们大海捞针,找到恐怖分子。为什么美国在9·11后基本没有恐怖暴力事件?因为它的预防系统特别强。比如,棱镜计划。棱镜计划从2007年开始实施,主要通过互联网公司和电话公司的光缆、网络和设备的后门,攫取信息,找出可疑分子和恐怖分子。实际上,我们看到的“棱镜计划”只是一部分,它一共有四个项目,“主干道”和“码头”对“元数据”进行存储和分析。“主干道”是对通话记录,“码头”是对上网记录。“棱镜”和“核子”秘密监视项目则负责截取内容。“棱镜”是对通话及短信内容进行监视,“核子”项目就是对上什么网站浏览什么内容进行监视。斯诺登负责的是“棱镜”,就是通信通话这一部分,主要使用的是大数据的挖掘手段。有些好像不相干的、不属于机密的信息,在他们眼里就成为有用的信息了。“手机使用时间和地点”、“信用卡购物记录”等等,都是有用的。有人问:什么是大数据时代?和小数据时代的区别呢?在“小数据时代”,银行卡信息、通话、信息内容等是个人的隐私;在“大数据时代”,除了这些之外,还有些不相干的数据都有可能泄露你的隐私。如剑桥大学最近有一个研究,通过分析你的社交圈,和什么人往来,就可以判断你小时候父母有没有离过婚。在小数据时代,个人的社交圈不是秘密。大数据时代,这可能就是泄露秘密隐私的重要方面。所以,如何保护好个人的隐私越来越复杂化,越来越重要。

运用大数据技术,我们还可以知道很多东西。比如说,不同年龄段人群分布在市区、县城、乡镇、农村的大致比例?不同人群在网上关注什么?节假日期间不同人群最喜欢去哪里?他们的流动路线是什么?怎样用最快的速度让信息抵达需要它们的人群?比如说,5·12地震时,湖北很多地区的人不知道哪里发生地震。那时最早听说地震是在十堰,一会又说是宜昌和荆门,移动的手机报快讯说是在四川汶川。那个时候我们的信息从哪获取呢?不可能是报纸,因为第二天才能出来;也不可能是广播,人不可能随身带着收音机;电视也不行,上班期间不可能看电视。所以,手机报、手机快讯传递的信息最快。

党的十八大报告首次提出“四化同步”战略,将信息化提升到国家战略高度。最近,国务院常务会议要求把信息化从支撑地位转变成直接拉动经济社会发展的重要力量,明确要求促进信息消费。面对移动互联网浪潮和大数据时代,如果地方政府、各部门采取“鸵鸟政策 ”,假装不知道,不闻不问,或口头应付、浮于表面,这样既不符合中央要求,也不符合时代的要求,只能让我们在时代发展中步步落伍。现在已经有了“数据宇宙”这个概念。如果各级政府、各部门不了解虚拟世界,不会运用移动互联网信息技术,不懂得大数据概念,那么,我们在虚拟领域就是失控的。如果在这个领域失控,就没有资格、没有能力去管理这一领域的人群和事件。

三、大数据助力 向“信息化政府”迈进
哈佛大学商学院达文波特说:大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。任何一个组织,如果早一点着手大数据的工作,就可以获得明显的竞争优势。在大数据时代,创新政务管理的要义就是从“政府信息化”向“信息化政府”迈进,前者偏重于利用信息化手段提升效率,而后者更偏重大数据的思维,用信息化手段和方式解决处理问题,而且管理的范围从平面的实体世界拓展到了立体的虚拟世界、“数据宇宙”。

怎样利用大数据创新政务管理呢?一是要建设好信息化设施基础。没有信息化基础,就谈不上信息化,更谈不上大数据。只有具备了这些基础,才能具有收集能力。而且传统的计算存储方式根本不能适应大数据的发展要求,必须采用云计算的技术,要大胆地把“守着小家过日子”的概念抛弃,把我们的存储器、服务器存储到有保障的云存储中心去。二是要收集和存储数据。从现在开始尽可能地多收集各类数据,因为你现在不知道这些数据将来有什么用。如何收集好信息?统计局、信息中心等部门都需要考虑,包括传统的方式究竟还合不合适?还有哪些重要的资源没有得到?三是要分析。分析和挖掘数据是最重要的,因为只有分析,才能产生价值,所以我们要培养大数据分析的人才队伍,要加强与通信产业和软件厂商的合作。四是要加强运用。建议从现在开始把信息化、大数据培训列为日常培训项目之一,在政务人员中培养使用大数据的习惯,政府部门应该率先应用,形成示范作用。

现在各个国家都在做相关工作。比如,美国2011年2月发布《联邦云计算战略》白皮书,规定所有联邦政府新建项目中云计算优先,并规定每个联邦机构至少拿出3项现有的应用向云计算迁移;英国2011年11月宣布将启动政府云服务,2015年至少有50%的政府公共部门的信息技术资源通过政府云来购买;韩国2009年12月推出《云计算全面振兴计划》。

具体对政府而言,首先要收集,政府部门需在建设集中信息渠道的基础上,广泛收集信息。第二要分析相关性,通过研究历史数据的相互关联找对关系,建立相关性模型。第三要进行大量预测、使用、防范和应用。大数据时代,政务信息化是大数据应用的基础手段,我们一定要转变思维模式,建立大数据的思维模式。什么是大数据的思维模式?《大数据时代》作者舍恩伯格说:以后这些数据部的分析人员、统计局、信息中心人员看到的是一个个数据,而不是一个个人。这就是要抛弃个体,看整体、看群体、看关联、看特征。

此外,数据信息应优先放置在更放心、更安全的网络上。大数据时代的监控手段,包括:嗅探监听,对过境的海底光缆在接收端进行直接窃听等;路由劫持,目前全球路由器13个顶级域名服务器中的9个都在美国,他们监控了全球70%的数据;网络入侵,通过破解密码来篡改口令,这就好比配了别人家的钥匙直接进去拿东西;直接接管,直接要求美国电信公司威瑞森上交用户的通话记录。比如,2011年2月,伊朗宣布卸载核电站的核燃料。因为它的离心机被远程软件病毒“震网”攻破损毁,这个软件设计要求必须高度熟悉工业生产过程中核武器的生产过程,任何一个黑客个体根本做不了。2007年,“震网”病毒被悄悄传播到伊朗的互联网上,这个病毒可以自我复制,它的特点是开始影响非常小,越往后损害越大。2008年,伊朗的核电站部分离心机出现故障,工程师还以为是部件出了问题。2009、2010年大规模的故障中,病毒篡改侵入监视系统,工程师从屏幕看上去一切正常,实际上机器已经超高速运转,结果伊朗8000台离心机中有1000多台被报废。这两年再也听不到伊朗的核声音了,正是因为这样一个“震网”病毒。

大数据时代最大的隐忧是隐私和安全方面,湖北移动也出现过类似的案例。今年一季度,一个不法代理用一些虚假身份证虚假入网,套取酬金、电子消费券。过去的财务制度是今天报账、第二天审核,而电子券是24小时、不受时间限制的。这个不法分子就用这种漏洞套取了90多万元,去中百超市等处消费。因为要到晚上10点才会断网,他有5个小时去消费、购买东西,公司第二天核帐的时候才发现。这样的财物损失就是因为财务人员没有适应移动互联网的要求,没有看到流程的漏洞而造成的损失。移动公司的这个案例还有可能重演,包括政府的审核制度,现在审核不能像以前那样6点下班了,移动互联网还没有下班。

值得一提的是,我省的十堰是全国首个实现“刷手机乘公交”的地市,市民乘车出行不用投币、不用刷卡,一部手机全搞定。目前,十堰月均刷手机乘公交的市民达到2.7万人,32万次,截至目前累计刷乘次数突破千万。还有十户联防,家里的青壮年外出打工都走了,留下的都是老弱病残,如何帮助村民实现自助自救?比如,十堰竹坪乡店坪村有位70多岁的老汉独自在家摔倒后无法行动,他想起儿子出门前告诉他有事就用手机拨打995,拨通后不一会隔壁邻居就赶过来并送他就医,老汉又感动又惊喜。如果等他儿子赶回来救他,恐怕就晚了。2013年上半年,十堰的“十户联防”用户增幅全省第一,现已突破14万。建议不断加强信息化技术的运用,助力各级政府从“政府信息化” 不断向“信息化政府”迈进。