大数据学习笔记(一)
开始读《大数据时代》一书,为以后大数据方面的工作做做准备吧。虽然学习状态还是颇为浮躁的,但是多学一点是一点,多看一点是一点,多运动一点是一点,就以这种心态勉励自己继续积极学习和锻炼下去吧。
读一点书,查一查资料,做一点笔记,慢慢更新。
MapReduce思想(摘自百度百科)
在MapReduce里,Map处理的是原始数据,自然是杂乱无章的,每条数据之间互相没有关系;到了Reduce阶段,数据是以key后面跟着若干个value来组织的,这些value有相关性,至少它们都在一个key下面,于是就符合函数式语言里map和reduce的基本思想了。
这样我们就可以把MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。
NoSQL(NoSQL = Not Only SQL ) ,泛指非关系型的数据库。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库;另一个不同的是HBase基于列的而不是基于行的模式。
大数据时代转变:
一、我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
二、研究数据如此之多,以至于我们不再热衷于追求精确度。
三、因前两个转变而促成的,我们不再热衷于寻找因果关系,大数据告诉我们“是什么”而不是“为什么”,我们不必知道现象背后的原因,我们只要让数据自己发声。