hadoop基础知识
1、Hadoop是一个适合大数据的分布式存储与计算平台
2、Hadoop核心:
HDFS(Hadoop Distributed File System) 分布式文件系统
MapReduce 并行计算框架
2.1、Hadoop生态系统
Zookeeper 分布式协作系统
HBse 实时分布式列存数据库
Spark 内存分布数据集
Hive 数据仓库(离线分析)
Pig 数据流处理
Stom 实时分析(流方式)
Mahout数据挖掘算法库
Spoop 数据ETL工具
Flume 日志手机工具
3、Hadoop架构
3.1、HDFS 主从结构
主节点,只有一个:namenode 从节点,有很多个。
datanode namenode:
负责管理 接受用户操作请求,实现对文件系统的操作(命令和API方式)。
维护文件系统的目录结构。
管理文件与block之间关系,block与datanode之间的关系。
datanode:
负责存储 存储文件。
文件被分成block。
为保证数据安全,文件会有多个副本。
3.2、MapReduce架构:
主从架构: 主节点,只有一个: JobTracker 从节点,有很多个。
TaskTrackers JobTracker:
接受客户提交的计算任务 把计算任务分给TaskTrackers执行
监控TaskTracker的执行情况
TaskTracker:
执行JobTracker分配的计算任务
4、Hadoop的特点
扩容能力:能可靠存储和处理千兆字节(PB)数据。
成本低:可以通过普通PC组成集群来分发和处理数据,服务器群总计可达数千个节点。
高效率:通过分发数据,hadoop可以在数据所在节点上并行处理。
可靠性:hadoop能自动维护数据的多副本,并且在任务失败后能自动重新部署计算任务。