mdyang - 博客园

SIGMOD 2011 论文导读（2011.7.7最后更新）

摘要：本博文记录我读过的SIGMOD 2011论文，一方面与大家分享，另一方面方便自己以后查找。1) Processing Theta-Joins using MapReduceAlper Okcan, Northeastern University; Mirek Riedewald*, Northeastern UniversityTheta-Join是Equijoin的超集（http://en.wikipedia.org/wiki/Relational_algebra#.CE.B8-join_and_equijoin）。简单来说，Equijoin的连接谓词是=，而Theta-Join的谓词则可以阅读全文

posted @ 2011-07-07 11:08 mdyang 阅读(1894) 评论(0) 推荐(0)

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(3)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html2.5 分布式文件系统HDFS从数据放置的角度看传统大规模数据处理中的问题前面集中关注处理。但没有数据，处理无从谈起。在传统集群架构（例如HPC）中，计算与存储是两个分离的组件。虽然不同系统的具体实现有差异，但总体思路是一致的：计算节点从存储节点将数据读入，处理数据，将结果写出。随着数据量的增大，数据处理对于计算能力的要求也在提高。随着计算能力的提高，存储节点与阅读全文

posted @ 2011-07-05 09:59 mdyang 阅读(1251) 评论(0) 推荐(0)

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(2)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html2.3 执行框架MapReduce最伟大的地方在于它分离了编写并行算法的what和how（你只需要写程序，而不需要为它怎么执行操心）. 而对这一点贡献颇大的就是执行框架：它处理了几乎所有底层执行的细节，并且能够保证MapReduce集群具有从几个节点增长到数千节点的扩展能力。具体来说，包括以下一些职责：1) 调度每项MapReduce工作（job）都被分解为多个阅读全文

posted @ 2011-07-02 11:38 mdyang 阅读(1260) 评论(0) 推荐(0)

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(1)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html当前处理大规模数据最行之有效的思想就是“分而治之”。分而治之：将一个大问题划分为相对独立的若干小问题，然后加以解决。由于小问题间相对独立，因此可以以并发/并行的方式分别处理。具体来说，可以是多线程，多进程，多核以至于多处理机（集群）。如何分治？根据应用场景的不同，处理的方式千差万别。要考虑的问题包括但不限于：· 如何划分问题？· 如何将子任务阅读全文

posted @ 2011-06-29 16:36 mdyang 阅读(1651) 评论(0) 推荐(0)

《Data-intensive Text Processing with MapReduce》读书笔记第1章：引言

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.htmlMapReduce是什么？MapReduce是一个编程和执行模型。使用MapReduce，你可以编写大规模分布式数据处理程序。使用MapReduce模型编写的程序可以运行在由普通PC机构成的集群上。本书介绍什么？本书介绍基于MapReduce的可扩展大规模文本处理方法。为什么介绍这些？要处理的数据规模越来越大了，比如：1) 大规模数据管理。现在任何基于数据构建（阅读全文

posted @ 2011-06-29 16:21 mdyang 阅读(1668) 评论(0) 推荐(0)

Mengdong的技术博客

导航

公告

SIGMOD 2011 论文导读（2011.7.7最后更新）

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(3)

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(2)

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(1)

《Data-intensive Text Processing with MapReduce》读书笔记第1章：引言