随笔档案「2016年12月8日」：Shuffle过程的简单介绍 ... - Beeman_xia

摘要： Shuffle是连接Map和Reduce的桥梁Shuffle分为Map端的Shuffle和Reduce端的ShuffleMap端的shuffle1输入数据和执行任务：分片后分配Map任务，每个任务分配100M缓存2写入缓存在溢写过程中：3溢写溢写比达到0.8后启动溢... 阅读全文

posted @ 2016-12-08 22:56 Beeman_xia 阅读(383) 评论(0) 推荐(0)

摘要： 1、查看指定目录下内容Hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件hadoop dfs –cat [file_path]eg:hadoop dfs -cat /user/wang... 阅读全文

posted @ 2016-12-08 20:01 Beeman_xia 阅读(105) 评论(0) 推荐(0)

摘要：文章思路：首先提出第一代MRv1（MapReduce Version1.0）的局限性，然后解释YARN是怎么克服这些局限性的，接着说了YARN的编程模型，说了YARN的组成，YARN的通信协议和YARN的运行过程。通过这样的描述来认识YARN的。MRv1的局限性YAR... 阅读全文

posted @ 2016-12-08 15:13 Beeman_xia 阅读(243) 评论(0) 推荐(0)

摘要： ApplicationMaster是什么？ApplicationMaster是一个框架特殊的库，对于Map-Reduce计算模型而言有它自己的ApplicationMaster实现，对于其他的想要运行在yarn上的计算模型而言，必须得实现针对该计算模型的Applica... 阅读全文

posted @ 2016-12-08 11:05 Beeman_xia 阅读(955) 评论(0) 推荐(0)

摘要：在Map端数据从Map中写入环形缓冲区，进行分区，分区时达到80%后溢出写入到磁盘，这几步同步进行中间有个Shuffle过程Reduce端执行完Map 后到Reduce内存中，进行sort和merge，生成溢出文件，很多的溢出文件合并（一次合并10个），Reduce文... 阅读全文

posted @ 2016-12-08 10:30 Beeman_xia 阅读(128) 评论(0) 推荐(0)

Beeman_xia