2015年8月28日
摘要: http://my.oschina.net/fenno/blog/95916 阅读全文
posted @ 2015-08-28 22:33 bendantuohai 阅读(107) 评论(0) 推荐(0) 编辑
摘要: Hbase原理概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与... 阅读全文
posted @ 2015-08-28 22:21 bendantuohai 阅读(348) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/keda8997110/article/details/8474349 阅读全文
posted @ 2015-08-28 21:47 bendantuohai 阅读(117) 评论(0) 推荐(0) 编辑
摘要: reduce的数目到底和哪些因素有关1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关,而reduce的数量跟哪些因素有关呢?设置mapred.tasktracker.reduce.tasks.maximum的大小可以决定单个tasktracker一次性启动reduce的数目... 阅读全文
posted @ 2015-08-28 20:50 bendantuohai 阅读(416) 评论(0) 推荐(0) 编辑
摘要: mapreduce任务中Shuffle和排序的过程流程分析: Map端:1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort... 阅读全文
posted @ 2015-08-28 16:36 bendantuohai 阅读(2543) 评论(0) 推荐(0) 编辑
摘要: 角色描述:JobClient:执行任务的客户端JobTracker:任务调度器TaskTracker:任务跟踪器Task:具体的任务(Map OR Reduce)从生命周期的角度来看,mapreduce流程大概经历这样几个阶段:初始化、分配、执行、反馈、成功与失败的后续处理每个阶段所做的事情大致如下... 阅读全文
posted @ 2015-08-28 12:15 bendantuohai 阅读(194) 评论(0) 推荐(0) 编辑