第五周总结
1)狭义的Hadoop
核心项目:
Hadoop Common: 在 0.20 及以前的版本中,包含 HDFS、 MapReduce 和其他项目公共内容,从 0.21 开始 HDFS和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common
为Hadoop其他项目提供一些常用工具,如系统配置工具Configuration、远程过程调用RPC序列化机制、Had抽象文件系统FileSystem等。
HDFS: Hadoop 分布式文件系统(Distributed File System),运行大型商用机集群,是Hadoop体系中海量数据储存管理的基础。
MapReduce: 并行计算框架, 0.20 前使用 org.apache.hadoop.mapred 旧接口, 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。
分布式数据处理模型和执行环境,是Hadoop体系中海量数据处理的基础。
2)广义的Hadoop
核心项目+其他项目(Avro、Zppkeeper、Hive、Pig、Hbase等):
上面为基础,面向具体领域或应用的项目有:mahout、X-Rime、Crissbow、lvory等
数据交换、工作流等外围支撑系统:Chukwa、Flume、Sqoop、Oozie
子项目:
Hbase:
Zookeeper:
Apache Pig:
Apache Hive:
Apache Flume:
Apache sqoop:
Mahout:
Ambari: