葵恩的学习笔记

导航

Hadoop权威指南学习笔记

一、MapReduce

  MapReduce是一种线性的可伸缩编程模型,可用于数据处理,程序员要写map和reduce两个函数,函数定义的时从一个键值对集合到另一个键值对集合的映射。数据本地化特性是MapReduce的核心特征。

  Hive是基于MapReduce的高级查询语言。

  lucence是一个应用广泛的文件搜索系统库。

二、HDFS

  HDFS集群有两类节点以管理者-工作者模式运行,即一个namenode和多个datanode。它维护着文件系统树及整棵树内所有的文件和目录。

   故障转移控制器 failover_controller的系统中有一个新实体管理者,将活动namenode转移为备用namenode的转换过程。

  高可用实现做了更进一步的优化,来确保先前活动的namenode不会执行危害系统并导致系统崩溃的擦欧洲哦,该方法称为“规避”(fencing)。系统引入了一系列的规避机制,包括杀死namdenode进程,收回访问共享存储目录的权限,通过远程管理命令以屏蔽响应网络端口。

 

mapreduce流程

 

 

posted on 2021-02-23 11:46  葵恩  阅读(64)  评论(0编辑  收藏  举报