linux下hadoop
1.hadoop介绍
先来说一下大数据,比如说有个小姐姐爱打麻将,每天都打,我把小姐姐每天麻将的输赢,天气,心情等数据情报搜集起来,就会成为很大量的数据,大家都知道有些人天生就是运气好,从概率学上讲,只要我们每天都压她10块钱赢,是不是就赚了?这种想法是错误的哦,她也许输了99次,一次赢了150,因为麻将存在倍数的。
那么100次下来她赢了50,我们赔了多少?98x10次,对980块钱哦。所以对于我们来说,小姐姐赢的次数比本身她输赢了多少更重要。
那如果天气是影响输赢的因素呢,地点也是影响小姐姐的因素呢,总之越多的数据越好,多到能分析出来小姐姐的运气为什么那么好?比如爱吃什么,比如大姨妈来了?
说到这我只说明了大数据是如何重要的。
那么,big data 是需要储存的,big data也是需要计算的,big data不是结构化好的数据,如果是结构化好的数据用excel就能分析,要什么大数据。。。
那么重点来了:
Q:什么是hadoop?
A:hadoop是分布式系统基础框架。
最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
HDFS为Hadoop Distributed File System的英文缩写,简称Hadoop分布式文件系统。其被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
MapReduce是面向大数据并行处理的计算模型、框架和平台。
2.安装
3.修改配置
4.hdfs
5.java与hdfs交互