hadoop基础知识

1、Hadoop是一个适合大数据的分布式存储与计算平台

2、Hadoop核心:

HDFS(Hadoop Distributed File System) 分布式文件系统

MapReduce 并行计算框架

2.1、Hadoop生态系统

Zookeeper 分布式协作系统

HBse 实时分布式列存数据库

Spark 内存分布数据集

Hive 数据仓库(离线分析)

Pig 数据流处理

Stom 实时分析(流方式)

Mahout数据挖掘算法库

Spoop 数据ETL工具

Flume 日志手机工具

3、Hadoop架构

3.1、HDFS 主从结构

主节点,只有一个:namenode 从节点,有很多个。

datanode namenode:

负责管理 接受用户操作请求,实现对文件系统的操作(命令和API方式)。

维护文件系统的目录结构。

管理文件与block之间关系,block与datanode之间的关系。

datanode:

负责存储 存储文件。

文件被分成block。

为保证数据安全,文件会有多个副本。

3.2、MapReduce架构:

主从架构: 主节点,只有一个: JobTracker 从节点,有很多个。

TaskTrackers JobTracker:

接受客户提交的计算任务 把计算任务分给TaskTrackers执行

监控TaskTracker的执行情况

TaskTracker:

执行JobTracker分配的计算任务

4、Hadoop的特点

扩容能力:能可靠存储和处理千兆字节(PB)数据。

成本低:可以通过普通PC组成集群来分发和处理数据,服务器群总计可达数千个节点。

高效率:通过分发数据,hadoop可以在数据所在节点上并行处理。

可靠性:hadoop能自动维护数据的多副本,并且在任务失败后能自动重新部署计算任务。

 

posted on 2015-08-26 15:11  kenwong  阅读(693)  评论(0编辑  收藏  举报

导航