linux下hadoop

1.hadoop介绍

　　先来说一下大数据，比如说有个小姐姐爱打麻将，每天都打，我把小姐姐每天麻将的输赢，天气，心情等数据情报搜集起来，就会成为很大量的数据，大家都知道有些人天生就是运气好，从概率学上讲，只要我们每天都压她10块钱赢，是不是就赚了？这种想法是错误的哦，她也许输了99次，一次赢了150，因为麻将存在倍数的。

那么100次下来她赢了50，我们赔了多少？98x10次，对980块钱哦。所以对于我们来说，小姐姐赢的次数比本身她输赢了多少更重要。

那如果天气是影响输赢的因素呢，地点也是影响小姐姐的因素呢，总之越多的数据越好，多到能分析出来小姐姐的运气为什么那么好？比如爱吃什么，比如大姨妈来了？

说到这我只说明了大数据是如何重要的。

那么，big data 是需要储存的，big data也是需要计算的，big data不是结构化好的数据，如果是结构化好的数据用excel就能分析，要什么大数据。。。

那么重点来了：

Q：什么是hadoop？

A：hadoop是分布式系统基础框架。

　　最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

　　HDFS为Hadoop Distributed File System的英文缩写，简称Hadoop分布式文件系统。其被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

　　HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

　　MapReduce是面向大数据并行处理的计算模型、框架和平台。

2.安装

3.修改配置

4.hdfs

5.java与hdfs交互

posted on 2017-10-23 18:52 剑姬阅读(146) 评论(0) 编辑收藏举报

刷新页面返回顶部

linux下hadoop

导航

公告