摘要: 关闭TSVNCache.exe进程在Windows下使用SVN,通常都会安装TortoiseSVN,安装后会有一个TSVNCache.exe的进程驻留内存,这个进程会定时地去扫描Subversion管理的文件夹/文件是否被修改了,一旦发现有更新,那本地的这些有更新的文件/文件夹就会被更新,这个动作不... 阅读全文
posted @ 2014-05-08 21:14 baoendemao 阅读(1829) 评论(0) 推荐(0) 编辑
摘要: 阅读本文可以带着下面问题:1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那... 阅读全文
posted @ 2014-05-08 20:24 baoendemao 阅读(1116) 评论(0) 推荐(1) 编辑
摘要: 在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进行reduce,经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理,这样的Job是不会保存中间结果的,并大大减少了I/O操作。例如:在一个Job中,按顺序执行 MAP1->MAP2->REDU... 阅读全文
posted @ 2014-05-08 19:22 baoendemao 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 1.迭代式mapreduce一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,Kmeans算法都需要多次的迭代,关于mapreduce迭代在mahout中运用较多。有兴趣的可以参考一下mahout的源码。在map/reduce迭代过程中,... 阅读全文
posted @ 2014-05-08 18:24 baoendemao 阅读(214) 评论(0) 推荐(0) 编辑