2015 年 8月 28 日随笔档案 - bendantuohai

2015年8月28日

摘要： http://my.oschina.net/fenno/blog/95916 阅读全文

posted @ 2015-08-28 22:33 bendantuohai 阅读(107) 评论(0) 推荐(0) 编辑

摘要： Hbase原理概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与... 阅读全文

posted @ 2015-08-28 22:21 bendantuohai 阅读(351) 评论(0) 推荐(0) 编辑

hadoop源代码解读

摘要： http://blog.csdn.net/keda8997110/article/details/8474349 阅读全文

posted @ 2015-08-28 21:47 bendantuohai 阅读(117) 评论(0) 推荐(0) 编辑

reduce的数目到底和哪些因素有关

摘要： reduce的数目到底和哪些因素有关1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关，而reduce的数量跟哪些因素有关呢？设置mapred.tasktracker.reduce.tasks.maximum的大小可以决定单个tasktracker一次性启动reduce的数目... 阅读全文

posted @ 2015-08-28 20:50 bendantuohai 阅读(419) 评论(0) 推荐(0) 编辑

mapreduce任务中Shuffle和排序的过程

摘要： mapreduce任务中Shuffle和排序的过程流程分析： Map端：1．每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M，由io.sort... 阅读全文

posted @ 2015-08-28 16:36 bendantuohai 阅读(2548) 评论(0) 推荐(0) 编辑

mapreduce执行流程

摘要：角色描述：JobClient:执行任务的客户端JobTracker:任务调度器TaskTracker:任务跟踪器Task:具体的任务(Map OR Reduce)从生命周期的角度来看，mapreduce流程大概经历这样几个阶段：初始化、分配、执行、反馈、成功与失败的后续处理每个阶段所做的事情大致如下... 阅读全文

posted @ 2015-08-28 12:15 bendantuohai 阅读(196) 评论(0) 推荐(0) 编辑