2012 年 11月 23 日随笔档案 - 皮皮家的程序猿

2012年11月23日

摘要： Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程，这一段应该是Hadoop中最核心的部分，因为涉及到Hadoop中最珍贵的网络资源，所以shuffle过程中会有很多可以调节的参数，也有很多策略可以研究。这里没有对shuffle做深入的分析，也没有读源代码，只是根据资料和使用的一些理解。map端map过程的输出是写入本地磁盘而不是HDFS，但是一开始数据并不是直接写入磁盘而是缓冲在内存中，缓存的好处就是减少磁盘I/O的开销，提高合并和排序的速度。默认的内存缓冲大小是100M（可以配置），所以在书写map函数的时候要尽量减少内存的使用，为shuffle过程预留更多的阅读全文

posted @ 2012-11-23 15:02 皮皮家的程序猿阅读(7436) 评论(0) 推荐(1) 编辑

皮皮家的程序猿

保持乐观与自信，虽然我真的很菜

公告