Hadoop笔记

NameNode作用

负责管理文件系统的命名空间,包括了命名空间镜像文件(fsimage,位于内存与磁盘中)和编辑日志文件(edits),以及记录每个文件中各个块所在的数据节点信息。

NameNode启动过程

NameNode启动:读取fsimage生成内存中元数据镜像

DataNode启动:向NameNode注册,向NameNode发送BlockReport。

NameNode高可用

QJM

Failover controller(ZooKeeper)

 

分片规则

long splitSize = computeSplitSize(goalSize, minSize, blockSize);

computeSplitSize:

Math.max(minSize, Math.min(goalSize, blockSize));

其中,goalSize为“InputFile大小”/“我们在配置文件中定义的mapred.map.tasks”值,minsize为mapred.min.split.size,blockSize为64,所以,这个算式为取分片大小不大于block,并且不小于在mapred.min.split.size配置中定义的最小Size。

 

 

Hive

分区

桶:map连接

存储格式

默认存储格式:分隔的文本

posted @ 2018-04-09 19:47  清水捞蟹  阅读(66)  评论(0编辑  收藏  举报