大数据之二:别人再问你什么是大数据,甩这篇给他!
90年代,懵懵懂懂的年代
早在90年代,美国的一位计算机科学家就提出了大数据的概念,但那时候只是注意到了数据的大,暂时还未发现数据大到一定程度之后的潜在价值。那个年代对大数据的定义是:
如果某一数据集的规模大到一定程度,导致当下的数据处理工具无法有效的对其进行标记、存储、处理,那么它就属于大数据的范畴。
大数据从理念上讲,其类型包括结构化数据,半结构化数据和非结构化数据,实际中多数为非结构化数据,导致当下主流的关系型数据处理方法与工具无法对其进行有效处理。
2012世界末日的年代
2012年是挺特殊的一年,因为我本人十分担心2012年的12月21号
会发生什么不可预知的事情,还好全球人民顺利度过了那一天。
大数据规模下限一直在提高,到了2012
年,数据规模达到EB
级别的数据才能从【规模】上被称为是大数据,这正也从侧面体现了全球数据量增长的是如此之快。关于全球数据量增长的历史,可以查看我的另一篇博文大数据系列之一
2016年人工智能的元年
2016年,明确了大数据的四大特征,如下图所示:
所以,此时大数据的定义为:
大数据代表着一堆信息资源,它具备上图中的四个4特殊,即要有超大规模的数据集,数据类别要繁杂多样,数据要持续产生与更新,数据质量要好,噪声数据低,需要使用特殊技术及数据分析方法才能从中提取相关的价值。
说到大数据的价值,这里不得不提一句,它不会告诉我们为什么,只会告诉我们是什么,因为大数据经常是信息交互产生的无成本副产品,换句明白的话讲,大数据都是马后炮,我们从中提取的信息价值其实就是【经验】,即XXX多数情况下都是这样做的,而不明白为什么要这样做。
人工智能正是基于大数据的【经验】来进行机器学习的,至于人工智能是不是明白为什么要这样做,那就是后话了,反正这样做能大概率达成目标就行了。
此时,人们已经重新认识到了大数据的潜在价值,所以人们在面对大数据时,将重心放在了价值提取上。
为什么说2016年是人工智能的元年呢,看看2016年的AlphaGo在围棋中的表现以及人工智能终端在2018年的井喷就明白了。
2018年扬帆起航的年代
2018年刚过,2018年人们对大数据的定义简单明了,即:
需要
并行计算
才能处理的数据就是大数据。
多么的简单明了而又不明白,因为此时人们将对大数据的定义转嫁到了并行计算
的身上,所以想要清楚2018年相对于2016年在定义上有哪些进化,就需要理解并行计算的概念及其应用场景。
大数据和商业智能
大数据和商业智能(Business Intelligence)
有一些共同的目的,比如决策分析,趋势预测,那么二者之间有什么区别呢?
- BI使用可描述的归纳统计法,而大数据使用感知统计法
- BI基于信息价值很高的数据进行统计分析,而大数据使用海量的信息价值较代的数据进行统计分析
- BI最终只能衡量某件事或判断某种趋势,而大数据却可以揭示关系、依赖、预测产出或行为。
欧凯惯例:小结
小结一下,大数据的定义进化有一个明显的分水岭,人们在认识到大数据的潜在价值前是一个阶段,认识到潜在价值后是另外一个阶段。
第一个阶段对大数据的定义明显是『反感』的,形象描述之就是『我真受不了你,数据怎么这么多呢,咋处理才好呢』。
第二个阶段对大数据的定义明显是『亲和』的,形象描述之就是『这玩意看起来没啥用,其实仔细分析分析老有用了,我一定得找到最高效的办法提取我想要的信息』。
另外,也可以明确的讲,是大数据的进化将人工智能推入到一个可研实用的阶段。