决战大数据
来源:中国电子政务网 更新时间:2017-01-22


用数据找机会——《决战大数据》精粹

8小时前来源:ImportNew


《决战大数据:驾驭未来商业的利器》是我在两年前接触到的第一本关于大数据的书籍,由阿里巴巴集团副总裁车品觉所著。此书不是讲具体的大数据处理技术,而是从一个大数据运营践行者的角度来讲大数据的本质、数据处理的核心思想以及阿里巴巴数据运营的“内外三板斧”。文章并非枯燥的学术性论文,作者在文中加入很多工作小案例对观点进行引出、阐述或佐证,过渡自然,即使读者毫无大数据运营经验,亦能轻松把握关键思想。本文将对书中的关键思想进行提取,删繁就简,以便读者以最快最方便的途径获取书中的精华。


第一部分 从数据化运营到运营数据
大数据,为什么很多人只会谈,不会做

现在网络上很多人都在谈大数据,但是那些所谓的“大数据专家”只会谈,不会做,因为他们根本就没有做过。目前,在大数据方面,无法深入应用的原因在于,从收集到使用的大数据价值链出现了问题。只有先数据化运营,然后才能运营数据。而现在的情况是,用数据的人不知道大数据从哪里来,做数据的人不知道大数据如何使用。

收集数据的人并不知道未来使用数据的人要做什么,这是目前大数据的一大关键命门。此外,使用数据建模的人也有可能不清楚数据是如何获取的。举个例子,比如我在搜索引擎里发现某个地方搜索“感冒药”的频率非常高,于是我就断定这个地方可能出现了流行性感冒。然而这个数据是从何而来的呢?我完全不知道搜索这个词的人是谁,提供数据的人也没有必要告诉我数据的来源和质量。当创建模型的人可能不知道模型的效果如何,导致使用模型的人也不知道该怎么去反馈使用的结果。这样一来,信息的不对称会原来越严重。这正是体现了大数据实践过程中非常严重的断层问题。

数据化运营就是用数据去解决问题,但是如果我们用数据去解决更多的问题或者提前发现问题,就要运营数据。要使大数据产生真正的商业价值,我们关注的内容并非仅仅4个V,而应该将焦点放在如何真正让数据落地之上.

大数据的本质就是还原用户的真实需求

在思考数据的价值时,可以从三个维度来考虑:
你是否可以清楚地识别(Identity)用户的身份?
你能否搞清楚收集的数据对你的价值(Value)是什么?
收集数据时的场景(Situation)是什么?

首先来说识别。现在很多人同时拥有手机、PC和平板等多个设备,这个人每天都登录你的网站。这种情况下你能否知道是同一个用户?现在分辨用户并非难事,但是还有一些情况需要考虑,比如你会将手机借给别人用吗?是否知道用户是谁,决定了企业数据收集行为的意义大小。

数据收集的价值包含两个维度:
企业价值:你不会将用户的所有行为都记录下来,而是记录对企业自身有帮助的数据。数据收集可以实现企业对资源的合理分配。
客户价值:数据如何帮助企业为客户提供更好的服务。数据收集可以实现顾客体验的提升

当我们谈大数据价值的时候,第一点要注意的就是角色不一样,对于数据价值的看法也不同,所以在衡量价值的时候要考虑到受众和给予者这两个对立面的不同看法。以电子商务推荐系统为例,从企业考核的角度来说,他们想要的是如何让用户跟多地点击自己的产品,而对于消费者来说,他们想的却是有一个很想买的东西能不能快速买得到。

在准确识别和衡量了数据价值之后,我们再看一下数据收集的场景。大量的碎片化数据是噪音,让事实串联起来的行为变得非常困难,并且当我们把这些枯燥的数据串联起来的时候,就一定能代表事实吗?


早上你在路上看到一个人穿了件很好看的T恤,你心动了,到公司后马上搜索T恤,然后电商网站给你推荐了10W个相关商品。当你犹豫怎么挑选的时候突然要开会。会议中无聊你打开手机应用,继续搜索T恤,但是依然没有找到那件T恤。最后,手机弹出一个手机促销广告,你发现了一款价格便宜的品牌手机,你毫不犹豫买下了。

一家公司到底有多大的能力,才能还原用户所处的场景呢?

当你搜索T恤时,跟电商的第一个接触点出现,电商还原的场景是“你搜索了T恤,搜出10W个结果,但是你一个都没点击进入”。电商完全不知道你不点击的原因是你要开会。会议中你打开手机应用再次搜索T恤,有了第二次接触,但是你为什么最后却买了一部手机?有谁知道你为什么这么选择?最后你买手机选择了上海卖家,事实上你只是去过上海出差几个月,现在却在杭州。

如你看到的,在本应有那么多连接的数据里面,在购买T恤的案例中却没有了任何连接,那么企业该如何实现还原呢?每天都有大量的碎片化数据产生,那么这种状态下分析数据能有多可靠?所以说,企业在手机数据的时候,一定要明确自己是否有能力去收集用户在你的网站中发生的所有行为。

正如前面分析的,数据的价值必须来自于场景。

“活”的数据才是大数据

“死”数据就是单纯存在数据库中,无法进行分析和使用,并不能产生价值的数据。大数据的真正价值就是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入这个自循环中,并应用于各个行业。比如很多网站的推荐系统,不管是音乐、视频还是商品,都可以让用户来选择“喜欢”或“不喜欢”,这样一来企业就可以通过用户的选择基于后台算法为用户重新推荐。多样的自循环方式打开了大数据之门,而关键就是从解决问题出发。在数据的 自循环中,有两个核心关键点:
“活”做数据:就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据。
“活”看数据指标,动态使用数据:收集到的数据,必须要用场景去验证,灵活使用数据。

“活”用数据,就是看你能否看出这个数据本身的局限是什么。一方面,是我们的数据为用户体验改善了什么;另一方面,企业是使用数据时,对活数据的运用解决了什么问题或者开创了什么机会。要牢记,活用数据很重要。

无线数据,大数据的巅峰者

现在移动互联网的主流是APP,APP数据收集的方式包括两种:
手机用户联网时请求服务器的记录
将用户的行为数据记录下来之后,适时地传给网站

但不管是什么样的收集方式,无线数据的最终表现是在没有帐户体系的情况下,和PC的用户行为完全没有办法进行关联,这也以为着用户的数据出现了断层。

为此,我的看法是,保证PC和无线两份数据的完整,通过用户体系将两份数据关联起来,就可以在分析的时候用彼此的融合来还原用户行为。
首先,需要经无线数据单独保存起来,不能将其混入PC数据中。对于不需要还原用户行为的数据,比如页面整体点击率、用户访问时长等基于应用本身的数据就可以用无线数据来分析。
其次,由于PC和无线数据无关系,因此需要一套账号体系来使两者发生关系。

数据分类与数据价值,什么才是你的核心数据

在大数据时代,首先要做的是收集大量数据,但更重要的是对数据进行分类、存放和管理。

从数据分类的角度来看,可以分成以下4类:
按照是否可再生的标准来看,可分为不可再生数据和可再生数据。不可再生数据通常就是最原始的数据,比如用户访问网站时如果没有被记录下来,就无法还原了。这类数据必须有完善的保护措施和权限设置。可再生数据就是可通过其他数据生成的数据。
按照数据所处的存储层次来看,可分为基础层、中间层和应用层。基础层与原始数据一致,避免失真;中间层是基于基础层加工的数据,也被认为是数据仓库层,会根据不同的业务需求进行存放;应用层则是针对具体数据问题的应用。
按照数据业务归属来看,可分为各个数据主体,如交易类数据、会员类数据和日志类数据等。
按照是否为隐私来区分,可分为隐私数据和非隐私数据。

数据的5大价值:
识别和串联价值:在大数据时代,越能够还原用户真实身份和真实行为的数据,就越有价值。
描述价值:在负责的数据中抽象出核心点。
时间价值:考虑了时间的维度后,数据会产生更大的价值,对于时间的分析,能够更好的归纳出用户对于某个场景的偏好,对用户的推荐也更加精准。
预测价值
产出数据的价值:对部分数据整合之后产生新价值

数据的盲点,负面数据的力量

如果数据存在盲点,核心数据就无法轻易显现出来。盲点可以分为两类:一类是物理盲点,一类是逻辑盲点。
物理盲点:指数据库中不存在这样的数据(未收集)
逻辑盲点:有数据但未很好地发掘出来

对于物理盲点,如果出现在手机客户端问题就非常大,一是无线终端的数据手机技术不是很成熟,二是弥补受限,比如发布新版本流程耗时长、用户安装问题等。在逻辑盲点中,最大的盲点就是将PC数据和无线终端数据混着看。

也许对面对海量数据,我们通常只将焦点放在正面数据上,而忽略掉负面数据。比如公司每个月有10亿的交易量,虽然额度已经很大了,但你是否分析过为什么还有2亿可能的交易量没有做成?因为很多人看了不买,为什么不买?通过这些“负能量”数据,你其实很可能发掘出非常有价值的平台交易增长点。
第二部分 阿里巴巴的大数据秘密
混、通、晒,阿里巴巴数据化运营的内三板斧

数据化运营首先要从“人”做起,阿里巴巴数据化运营的内功就是利用好“混、通、晒”三板斧。

现在很多数据分析师缺乏商业意识,往往会导致分析师不知道该用什么样的逻辑去分析数据,公司决策层也得不到任何有价值的参考意见。那么数据分析师要拥有商业敏感的话,就要靠“混”,就是要常跟业务部门混在一起,了解业务部门在做什么,才有可能服务于他们。
 当你和业务“混”熟后,看到某些数据你就会明白它和商业决策有无关系及重要性。坚持带着业务问题来观察数据或者带着数据来观察业务,兼备二者的敏感,就是做到了“通”。“通”有两种场景。如现在有一个商业场景和一堆数据,这两者产生关系时,就是商业模式和数据彼此的“通”。因外一种更深入的就是公司组织中各部门的数据交叉,比如统一各部门数据标准和接口等。

“晒是一种在“混”和“通”的基础上产生出来的最终数据表现,通过业务和数据的结合,形成竞争力。

存、管、用,阿里巴巴运营数据的外三板斧

2011年开始,阿里巴巴开始从数据化运营想运营数据发展。

“存”就是把数据收集起来。关于数据收集,最重要的不是我们收集了什么数据,而是要思考这些数据如何使用以及到底能起到什么作用。收集数据不是目的,产生价值才是最终目标。

“管”就是对存储的数据进行管理。海量数据存储的代价是巨大的,需要考虑哪些数据可以放冷库,哪些数据需要先备份,是集中管理数据还是分散运作,是封闭保密还是开放等等问题,

“用”就是用数据解决问题。在“用”的问题上,数据分裂和重组,都能做到颠覆性创新。比如用户的生理性别是决策的重要依据,而现在可以从购物属性上变成“早男晚女”,这种改变并不违背运营数据的原则。

大数据,未来商业的利器

今天,我们正处于决策成本产生巨变的爆发点,过去无法获取的数据如今唾手可得,而当有些表面上毫不相关的数据关联起来时居然产生了新的商业价值。更重要的是,过去我们更多地是带着问题去寻找能够验证自己观点的数据,如今我们却可以用数据去预测未来可能出现的问题。海量数据使人的智慧得到更大的发挥,并变得更加规模化。

假定数据是脏的。美国一家公司专注于与地理位置相关的数据收集、整理和查询服务,它对于所收集来的数据会提供质量评分以反映数据的可信度,而且会对数据处理的每个阶段所用的算法进行评分以反映质量水平。这是大数据时代非常重要的一个趋势。

学会淡化数据。数据是有优先级的,有些是特别核心,而有些是缺失了也无关紧要的,我们要学会认真盘点那些最有价值的数据。

数据的标签化管理。数据的标签属性是人类经验判断的依据,是数据后的数据。这是个非常重要的趋势,在运营数据时,应该找出一些属性进行归类,然后慢慢考虑如何提炼,这对于未来非常重要。

数据与数据的连接。大数据最重要的是数据与数据之间的关系,而不是数据本身。这就是知识图谱。