linux下hadoop

1.hadoop介绍

  先来说一下大数据,比如说有个小姐姐爱打麻将,每天都打,我把小姐姐每天麻将的输赢,天气,心情等数据情报搜集起来,就会成为很大量的数据,大家都知道有些人天生就是运气好,从概率学上讲,只要我们每天都压她10块钱赢,是不是就赚了?这种想法是错误的哦,她也许输了99次,一次赢了150,因为麻将存在倍数的。

那么100次下来她赢了50,我们赔了多少?98x10次,对980块钱哦。所以对于我们来说,小姐姐赢的次数比本身她输赢了多少更重要。

那如果天气是影响输赢的因素呢,地点也是影响小姐姐的因素呢,总之越多的数据越好,多到能分析出来小姐姐的运气为什么那么好?比如爱吃什么,比如大姨妈来了?

说到这我只说明了大数据是如何重要的。

那么,big data 是需要储存的,big data也是需要计算的,big data不是结构化好的数据,如果是结构化好的数据用excel就能分析,要什么大数据。。。

那么重点来了:

Q:什么是hadoop?

A:hadoop是分布式系统基础框架。

  最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

  HDFS为Hadoop Distributed File System的英文缩写,简称Hadoop分布式文件系统。其被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

  HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

  MapReduce是面向大数据并行处理的计算模型、框架和平台。

2.安装

3.修改配置

4.hdfs

5.java与hdfs交互

posted on 2017-10-23 18:52  剑姬  阅读(142)  评论(0编辑  收藏  举报

导航