2011 年 6月 29 日随笔档案 - mdyang

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(1)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html当前处理大规模数据最行之有效的思想就是“分而治之”。分而治之：将一个大问题划分为相对独立的若干小问题，然后加以解决。由于小问题间相对独立，因此可以以并发/并行的方式分别处理。具体来说，可以是多线程，多进程，多核以至于多处理机（集群）。如何分治？根据应用场景的不同，处理的方式千差万别。要考虑的问题包括但不限于：· 如何划分问题？· 如何将子任务阅读全文

posted @ 2011-06-29 16:36 mdyang 阅读(1636) 评论(0) 推荐(0) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第1章：引言

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.htmlMapReduce是什么？MapReduce是一个编程和执行模型。使用MapReduce，你可以编写大规模分布式数据处理程序。使用MapReduce模型编写的程序可以运行在由普通PC机构成的集群上。本书介绍什么？本书介绍基于MapReduce的可扩展大规模文本处理方法。为什么介绍这些？要处理的数据规模越来越大了，比如：1) 大规模数据管理。现在任何基于数据构建（阅读全文

posted @ 2011-06-29 16:21 mdyang 阅读(1654) 评论(0) 推荐(0) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记（入口）2011.7.23最后更新

摘要：本文是《Data-intensive Text Processing with MapReduce》一书（豆瓣链接）读书笔记博文列表。这是我的第一个读书笔记，其中翻译与表述不当之处，望广大网友不吝赐教。目前的状态：正在看书，边看边写，随着看书进度更新读书笔记。虽然进度上没有绝对保证，但将读书笔记以博文的方式发布出来，是对自己的督促。无论如何，我将认真研读并撰写报告。更新速度为3天左右一篇。读完以后，将持续修订。并考虑添加一些实践练习。书名中译（待定）：使用MapReduce进行密集文本数据处理第1章：引言http://www.cnblogs.com/mdyang/archive/2011/06 阅读全文

posted @ 2011-06-29 16:17 mdyang 阅读(4563) 评论(4) 推荐(1) 编辑

Mengdong的技术博客

导航

公告

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(1)

《Data-intensive Text Processing with MapReduce》读书笔记第1章：引言

《Data-intensive Text Processing with MapReduce》读书笔记（入口）2011.7.23最后更新