hadoop基础

1.block块

HDFS文件被分成多个块进行存储，每个数据块默认存储3份，1个机架上存储2份，1份出现故障可以查找另外一份，如果整个机架故障，可以查找另外一个机架

2.DataNode数据节点

用于存放多个数据块

心跳检测：DataNode定期向NameNode发送心跳信息

3.NameNode管理节点

用来管理文件与数据块的映射表和数据块与数据节点（DataNode）的映射表

用到的文件包括：

fsimage :存储某一时段NameNode内存元数据信息。

edits: 操作日志文件。

fstime: 保存最近一次checkpoint的时间

4.Secondary NameNode

合并NameNode的edit logs到fsimage文件中

客户端发送文件读请求——>namenode返回元数据（从哪些datanode找到）——>客户端读取block，下载下来之后组装
客户端文件拆分成block——>通知namenode返回可用的有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据

map一个大任务分成多个小人物

reduce把map处理的结果合并

（可以多次做mapreduce）

posted @ 2017-04-25 17:48 corolcorona 阅读(157) 评论(0) 收藏举报

刷新页面返回顶部

corolcorona