2011 年 9月 13 日随笔档案 - buptLizer

转海量数据处理（2）

摘要：十七道海量数据处理面试题与Bit-map详解出处：http://blog.csdn.net/v_july_v前言本博客内曾经整理过有关海量数据处理的10道面试题（十道海量数据处理面试题与十个方法大总结），此次除了重复了之前的10道面试题之后，重新多整理了7道。仅作各位参考，不作它用。同时，程序员编程艺术系列将重新开始创作，第十一章以后的部分题目来源将取自下文中的17道海量数据处理的面试题。因为，我们觉得，下文的每一道面试题都值得重新思考，重新深究与学习。再者，编程艺术系列的前十章也是这么来的。若您有任何问题或建议，欢迎不吝指正。谢谢。第一部分、十五道海量数据处理面试题1. 给定a、b两个文阅读全文

posted @ 2011-09-13 21:21 buptLizer 阅读(216) 评论(0) 推荐(0) 编辑

转海量数据处理（1）

摘要：海量数据处理：十道面试题与十个海量数据处理方法总结出处：http://blog.csdn.net/v_JULY_v。------------------------------------------第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。阅读全文

posted @ 2011-09-13 21:20 buptLizer 阅读(352) 评论(0) 推荐(0) 编辑

大数据处理小结

摘要： 1.从海量数据中找出中位数题目：在一个文件中有 10G 个整数，乱序排列，要求找出中位数。内存限制为 2G。只写出思路即可。方案1：网上的解法都是千篇一律，方法都是将整数分段，映射都n个区间段，然后对每个区间段计数，当curSum>5G的时候停止计数，并统计中位数所在区间的每个取值的个数进行第二次统计，这样就得到了第5G大的数据了，这个的确是个好方法吧，算法的时间复杂度是线性的，因为是遍历了两次数据。方案2：采用编程之美上的一个思路，我们无法将5G的数据装入内存，那么就转入相对小的数据。比如取k为2G，我们利用最大堆，找出第2G大的数据，然后再遍历一次，找到第4G大的数据，然后建立1G大阅读全文

posted @ 2011-09-13 21:18 buptLizer 阅读(497) 评论(0) 推荐(0) 编辑

buptLizer

转海量数据处理（2）

转海量数据处理（1）

大数据处理小结

导航

公告

buptLizer

转 海量数据处理（2）

转 海量数据处理（1）

大数据处理小结

导航

公告

转海量数据处理（2）

转海量数据处理（1）