2011年9月13日

转 海量数据处理(2)

摘要: 十七道海量数据处理面试题与Bit-map详解出处:http://blog.csdn.net/v_july_v前言 本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,重新多整理了7道。仅作各位参考,不作它用。 同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题目来源将取自下文中的17道海量数据处理的面试题。因为,我们觉得,下文的每一道面试题都值得重新思考,重新深究与学习。再者,编程艺术系列的前十章也是这么来的。若您有任何问题或建议,欢迎不吝指正。谢谢。第一部分、十五道海量数据处理面试题1. 给定a、b两个文 阅读全文

posted @ 2011-09-13 21:21 buptLizer 阅读(216) 评论(0) 推荐(0) 编辑

转 海量数据处理(1)

摘要: 海量数据处理:十道面试题与十个海量数据处理方法总结出处:http://blog.csdn.net/v_JULY_v。------------------------------------------第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。 阅读全文

posted @ 2011-09-13 21:20 buptLizer 阅读(352) 评论(0) 推荐(0) 编辑

大数据处理小结

摘要: 1.从海量数据中找出中位数题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可。方案1:网上的解法都是千篇一律,方法都是将整数分段,映射都n个区间段,然后对每个区间段计数,当curSum>5G的时候停止计数,并统计中位数所在区间的每个取值的个数进行第二次统计,这样就得到了第5G大的数据了,这个的确是个好方法吧,算法的时间复杂度是线性的,因为是遍历了两次数据。方案2:采用编程之美上的一个思路,我们无法将5G的数据装入内存,那么就转入相对小的数据。比如取k为2G,我们利用最大堆,找出第2G大的数据,然后再遍历一次,找到第4G大的数据,然后建立1G大 阅读全文

posted @ 2011-09-13 21:18 buptLizer 阅读(497) 评论(0) 推荐(0) 编辑

导航