传统数据与大数据
作者:萝卜(微信:Robbie_Qi)
“问世间,大数据为何物,直教人众说纷纭”。一本《Big Data》的书,掀起了大数据的浪潮,不管是IT人士,还是媒体精英,都在议论大数据,春运大数据、出游大数据、美食大数据、阅读大数据……,那么,大数据到底是什么呢?难道量大、数大就是大数据吗?如果是这样,大数据就是炒旧饭了,殊不知电信领域无论从数量规模,还是从数据值在多年前就可以说是大数据了。
现在很多人都用4V来定义大数据,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),但我认为这个定义并不足以将大数据与传统数据区分开来,比如,电信的话单数据,就具备了上面的4个特征,而你会认为这是大数据吗?也许是吧。我现在理解的大数据,主要是针对传统数据仓库而言,传统数据仓库解决了企业内部数据孤岛的问题,而大数据则是要将企业内部数据和企业外部数据打通,从而依据全面、综合的信息进行科学决策管理。
首先,走向大数据是企业信息化的必然趋势。企业信息化解决了业务流程计算机化的问题,提高了工作效率,但要想实现科学决策,除了业务本身的信息外,还要参考更多的外部客观影响因素,如宏观政策、市场动态、竞争对手等,这些信息必须从企业外部去获取,原来的BI或数据仓库着重解决的是打通企业内部的数据孤岛,整合内部数据,但并没有将企业外部数据考虑进来,这就造成了决策的“盲区”,而大数据强调的正是“打通企业内部和企业外部的数据”,鼓励企业尽其所能去收集和整合企业外部的数据,如社交媒体、监控数据等,从这些数据中提炼出有价值的知识,与企业内部的整合起来,实现科学合理的管理决策。一个简单的例子,若要实现热播影视剧的推荐,只使用企业内部的点播数据,则不一定能在第一时间发现正在热播的《武媚娘》,而从微博、朋友圈等数据中,则可以在较早期就发现流行趋势并进行推荐。
其次,大数据的价值密度低,需要花费较大的成本去提炼。当前企业的数据主要是来源于信息系统,用于支撑企业的经营管理,以结构化数据为主。若把数据比做一座金山,那么,信息系统产生的数据就是“一粒粒的金沙”,其价值密度非常高,这是由于信息系统中每一个信息项都是经过反复斟酌之后才添加进去,新增一个信息项的研发和实施成本都很高,包含了大量的“干货”内容。而大数据中所强调的企业外部数据,主要有机器产生的数据和人自己产生的数据,前者一般是监控数据,后者包括微博、聊天等,数据中所含的杂质较多,必须使用相应的统计算法去掉噪声以提炼出有用的知识,这些算法一般是专业的统计算法,如回归、聚集、分类等。此外,大数据正如其名所言,数据的规模一般都很大,产生的速度较快,需要的硬件资源和处理成本都较传统的企业管理信息要高,所以需要企业根据实际情况选择性的进行收集和使用。
最后,大数据的价值发挥,依赖于合适的使用场景。虽然大数据中蕴藏着巨大的商业价值,但其价值的发挥,要与企业自身的业务特点巧妙的结合起来才可以,而这恰恰是大数据现阶段所缺少的。现阶段对于大数据使用的探讨,还处于非常初级的阶段,有些号称大数据的案例,实际就是传统的企业信息化,与大数据并不搭边,有些令人眼前一亮的案例,又缺少复制推广的条件,例如,沃尔玛根据卖场周边社交媒体的数据,提炼出正在热销的商品,从而及时调整卖场的库存和货架;又例如,Direct TV的呼叫中心将客户通话内容记录成文本,通过分析文本关键词分析问题,从而避免原来通过固定列表填写呼叫内容时,字典数据维护不及时带来的填写不准确问题。这两个应用大数据的案例确实很巧妙,但对其它企业只能起到借鉴和启发的作用。现在对于大数据,我们缺少一个将大数据直接转化为商业模式的方法体系,比如,说到企业信息化,就等同于将业务流程计算机化;提到BI,就是将各业务系统的数据整合起来;而提到大数据,我们能做什么呢?
以上是我对大数据的一点思考。
2015年2月10日于北京