Hadoop权威指南学习笔记
一、MapReduce
MapReduce是一种线性的可伸缩编程模型,可用于数据处理,程序员要写map和reduce两个函数,函数定义的时从一个键值对集合到另一个键值对集合的映射。数据本地化特性是MapReduce的核心特征。
Hive是基于MapReduce的高级查询语言。
lucence是一个应用广泛的文件搜索系统库。
二、HDFS
HDFS集群有两类节点以管理者-工作者模式运行,即一个namenode和多个datanode。它维护着文件系统树及整棵树内所有的文件和目录。
故障转移控制器 failover_controller的系统中有一个新实体管理者,将活动namenode转移为备用namenode的转换过程。
高可用实现做了更进一步的优化,来确保先前活动的namenode不会执行危害系统并导致系统崩溃的擦欧洲哦,该方法称为“规避”(fencing)。系统引入了一系列的规避机制,包括杀死namdenode进程,收回访问共享存储目录的权限,通过远程管理命令以屏蔽响应网络端口。
mapreduce流程