Mengdong的技术博客

学习,记录,分享

导航

2011年6月29日 #

《Data-intensive Text Processing with MapReduce》读书笔记第2章:MapReduce基础(1)

摘要: 本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html当前处理大规模数据最行之有效的思想就是“分而治之”。分而治之:将一个大问题划分为相对独立的若干小问题,然后加以解决。由于小问题间相对独立,因此可以以并发/并行的方式分别处理。具体来说,可以是多线程,多进程,多核以至于多处理机(集群)。如何分治?根据应用场景的不同,处理的方式千差万别。要考虑的问题包括但不限于:· 如何划分问题?· 如何将子任务 阅读全文

posted @ 2011-06-29 16:36 mdyang 阅读(1636) 评论(0) 推荐(0) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第1章:引言

摘要: 本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.htmlMapReduce是什么?MapReduce是一个编程和执行模型。使用MapReduce,你可以编写大规模分布式数据处理程序。使用MapReduce模型编写的程序可以运行在由普通PC机构成的集群上。本书介绍什么?本书介绍基于MapReduce的可扩展大规模文本处理方法。为什么介绍这些?要处理的数据规模越来越大了,比如:1) 大规模数据管理。现在任何基于数据构建( 阅读全文

posted @ 2011-06-29 16:21 mdyang 阅读(1654) 评论(0) 推荐(0) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记(入口)2011.7.23最后更新

摘要: 本文是《Data-intensive Text Processing with MapReduce》一书(豆瓣链接)读书笔记博文列表。这是我的第一个读书笔记,其中翻译与表述不当之处,望广大网友不吝赐教。目前的状态:正在看书,边看边写,随着看书进度更新读书笔记。虽然进度上没有绝对保证,但将读书笔记以博文的方式发布出来,是对自己的督促。无论如何,我将认真研读并撰写报告。更新速度为3天左右一篇。读完以后,将持续修订。并考虑添加一些实践练习。书名中译(待定):使用MapReduce进行密集文本数据处理第1章:引言http://www.cnblogs.com/mdyang/archive/2011/06 阅读全文

posted @ 2011-06-29 16:17 mdyang 阅读(4563) 评论(4) 推荐(1) 编辑