简介
Hadoop是用来处理大数据集合的分布式存储计算基础架构。可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。hadoop作为底层,其生态环境很丰富。
hadoop基础包括以下四个基本模块:
hadoop基础功能库:支持其他hadoop模块的通用程序包。
HDFS: 一个分布式文件系统,能够以高吞吐量访问应用的数据。
YARN: 一个作业调度和资源管理框架。
MapReduce: 一个基于YARN的大数据并行处理程序。
当然,hadoop相关的项目很多,包括HBase, Hive, Spark, ZooKeeper等。
基础准备
基础准备工作包括:安装环境的准备,ssh配置
安装环境的准备
首先需要3台机器(后续也可以扩展),我准备的是虚拟机中的3个ubuntu 16.04.2. 内存1G.
猩猩爱宝贝儿