《Data-intensive Text Processing with MapReduce》读书笔记第2章:MapReduce基础(1)
摘要:
本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html当前处理大规模数据最行之有效的思想就是“分而治之”。分而治之:将一个大问题划分为相对独立的若干小问题,然后加以解决。由于小问题间相对独立,因此可以以并发/并行的方式分别处理。具体来说,可以是多线程,多进程,多核以至于多处理机(集群)。如何分治?根据应用场景的不同,处理的方式千差万别。要考虑的问题包括但不限于:· 如何划分问题?· 如何将子任务 阅读全文
posted @ 2011-06-29 16:36 mdyang 阅读(1636) 评论(0) 推荐(0) 编辑