2014 年 3月 20 日随笔档案 - havedrop

2014年3月20日 #

摘要： map-reduce的优化：需要内存的地方： map/reduce任务运行时内存、存放中间数据的内存缓存区、map输出数据排序内存，需要操作磁盘的地方： map输出数据缓冲区达到阀值的溢出写文件， map缓冲区满写磁盘，map最后输出写磁盘， shuffle复制map输出的数据缓冲区阀值的溢出写文件，reduce读输入磁盘，这些都是中间阶段对磁盘的操作。运行内存越大，运行速度越快；中间数据越多，即缓冲区越大，读磁盘和写磁盘的次数越少，所以，这是个辩证的过程。如果运行需要的内存少，可以将缓冲区设置大一些。任务jvm重用，当运行一个任务的时候，首先会先启动一个jvm，启动时间大概为一秒，然阅读全文

posted @ 2014-03-20 12:30 havedrop 阅读(247) 评论(0) 推荐(0) 编辑

hadoop map-red的执行过程

摘要： hadoop的 map-red就是一个并行计算平台，我们在使用这个平台的时候，要做的事情就是提交自己定制的任务（job，主要定制map类，reduce类，combine类等类）,然后设置job的各种参数，比如设置mappe/reducer/combine类，输入数据路径，输出数据路径，输出格式。然后可以根据日志或者web页面查看任务执行的情况，如果错误，通过web页面查看日志。对于map-red平台，我们可以设置各种参数，来使得我们提交的任务的执行效率得到优化，比如多少个reducer任务，分片大小等。map-red的执行过程，首先分片由hadoop来完成，hadoop将完成的分片交给一个m 阅读全文

posted @ 2014-03-20 10:35 havedrop 阅读(607) 评论(0) 推荐(0) 编辑

lishankang

公告