Fork me on GitHub
摘要: 1. MapReduce 定义 MapReduce 是一个 分布式运算程序 的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce 核心功能是将 用户编写的业务逻辑代码和自带默认组件 整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2. MapR 阅读全文
posted @ 2019-05-29 21:13 小a的软件思考 阅读(918) 评论(0) 推荐(0) 编辑
摘要: 1. 工作机制 1. 一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2. DataNode 启动后向 NameNode 注册,通过后,周期性(1小时)的向 NameNode 上报所有的块信息。 3. 阅读全文
posted @ 2019-05-29 12:14 小a的软件思考 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 1. NN 和 2NN 工作机制 NameNode 会产生在磁盘中备份元数据的FsImage; 每当元数据有更新或者添加数据时,修改内存中的元数据并追加到Edits中; SecondaryNameNode 专门用于合并 FsImage 和 Edits; 2. Fsimage 和 Edits 解析 查 阅读全文
posted @ 2019-05-29 00:10 小a的软件思考 阅读(1195) 评论(0) 推荐(0) 编辑