Mengdong的技术博客

学习,记录,分享

导航

2011年7月21日 #

分治法解决MapReduce stripe模式内存瓶颈问题

摘要: 本文内容基于之前的一篇博文《Data-intensive Text Processing with MapReduce》读书笔记第3章:MapReduce算法设计(2):pair模式与stripe模式。这一节的末尾提出一个问题:stripe模式因为需要在mapper内维护一个关联数组,因此无法处理语料的词汇表非常大的情况。随后文章给出了一个解决思路:划分词汇表。但没有给出具体解决方法。本文针对这个思路,谈一谈如何通过划分词汇表的方式解决stripe模式存在的内存瓶颈。本文仅从抽象算法的层面对这个思路进行细化,不涉及具体的程序设计。因为条件所限,我目前尚无hadoop编程经验。空谈难免会有错误之 阅读全文

posted @ 2011-07-21 16:15 mdyang 阅读(1229) 评论(2) 推荐(0) 编辑