第五周总结

1)狭义的Hadoop

  核心项目:  

    Hadoop Common: 在 0.20 及以前的版本中,包含 HDFS、 MapReduce 和其他项目公共内容,从 0.21 开始 HDFS和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common

              为Hadoop其他项目提供一些常用工具,如系统配置工具Configuration、远程过程调用RPC序列化机制、Had抽象文件系统FileSystem等。
    HDFS: Hadoop 分布式文件系统(Distributed File System),运行大型商用机集群,是Hadoop体系中海量数据储存管理的基础。  

    MapReduce: 并行计算框架, 0.20 前使用 org.apache.hadoop.mapred 旧接口, 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。

           分布式数据处理模型和执行环境,是Hadoop体系中海量数据处理的基础。
2)广义的Hadoop

  核心项目+其他项目(Avro、Zppkeeper、Hive、Pig、Hbase等):

    上面为基础,面向具体领域或应用的项目有:mahout、X-Rime、Crissbow、lvory等

    数据交换、工作流等外围支撑系统:Chukwa、Flume、Sqoop、Oozie

  子项目:

    Hbase:

      

    Zookeeper:

      

    Apache Pig:

      

    Apache Hive:

      

    Apache Flume:

      

    Apache sqoop:

      

    Mahout:

      

    Ambari:

      

posted @ 2022-07-30 22:38  SHINIAN200  阅读(16)  评论(0编辑  收藏  举报