海量数据处理问题汇总及方法总结
摘要:
面试题中总是有好多海量数据的处理问题,在这里列出一些常见问题,便于以后查阅:类型1:hash映射+hash统计+堆排序1、 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。分而治之/hash映射:遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。遍历文件b,采取和a相同的方式将url分别存储到1000小文件中(记 阅读全文
posted @ 2012-09-07 22:05 好坏 阅读(4845) 评论(5) 推荐(2) 编辑