大数据学习笔记(一)

  开始读《大数据时代》一书,为以后大数据方面的工作做做准备吧。虽然学习状态还是颇为浮躁的,但是多学一点是一点,多看一点是一点,多运动一点是一点,就以这种心态勉励自己继续积极学习和锻炼下去吧。

 

  读一点书,查一查资料,做一点笔记,慢慢更新。

 

MapReduce思想(摘自百度百科)

  在MapReduce里,Map处理的是原始数据,自然是杂乱无章的,每条数据之间互相没有关系;到了Reduce阶段,数据是以key后面跟着若干个value来组织的,这些value有相关性,至少它们都在一个key下面,于是就符合函数式语言里map和reduce的基本思想了。
  这样我们就可以把MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。

  NoSQL(NoSQL = Not Only SQL ) ,泛指非关系型的数据库。

 

  HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库;另一个不同的是HBase基于列的而不是基于行的模式

 

 

  大数据时代转变:

一、我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样

二、研究数据如此之多,以至于我们不再热衷于追求精确度

三、因前两个转变而促成的,我们不再热衷于寻找因果关系,大数据告诉我们“是什么”而不是“为什么”,我们不必知道现象背后的原因,我们只要让数据自己发声。

 

posted @ 2015-01-18 22:06  jht_newbie  阅读(893)  评论(0编辑  收藏  举报