buptLizer - 博客园

转海量数据处理（2）

摘要：十七道海量数据处理面试题与Bit-map详解出处：http://blog.csdn.net/v_july_v前言本博客内曾经整理过有关海量数据处理的10道面试题（十道海量数据处理面试题与十个方法大总结），此次除了重复了之前的10道面试题之后，重新多整理了7道。仅作各位参考，不作它用。同时，程序员编程艺术系列将重新开始创作，第十一章以后的部分题目来源将取自下文中的17道海量数据处理的面试题。因为，我们觉得，下文的每一道面试题都值得重新思考，重新深究与学习。再者，编程艺术系列的前十章也是这么来的。若您有任何问题或建议，欢迎不吝指正。谢谢。第一部分、十五道海量数据处理面试题1. 给定a、b两个文阅读全文

posted @ 2011-09-13 21:21 buptLizer 阅读(235) 评论(0) 推荐(0)

转海量数据处理（1）

摘要：海量数据处理：十道面试题与十个海量数据处理方法总结出处：http://blog.csdn.net/v_JULY_v。------------------------------------------第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。阅读全文

posted @ 2011-09-13 21:20 buptLizer 阅读(374) 评论(0) 推荐(0)

大数据处理小结

摘要： 1.从海量数据中找出中位数题目：在一个文件中有 10G 个整数，乱序排列，要求找出中位数。内存限制为 2G。只写出思路即可。方案1：网上的解法都是千篇一律，方法都是将整数分段，映射都n个区间段，然后对每个区间段计数，当curSum>5G的时候停止计数，并统计中位数所在区间的每个取值的个数进行第二次统计，这样就得到了第5G大的数据了，这个的确是个好方法吧，算法的时间复杂度是线性的，因为是遍历了两次数据。方案2：采用编程之美上的一个思路，我们无法将5G的数据装入内存，那么就转入相对小的数据。比如取k为2G，我们利用最大堆，找出第2G大的数据，然后再遍历一次，找到第4G大的数据，然后建立1G大阅读全文

posted @ 2011-09-13 21:18 buptLizer 阅读(521) 评论(0) 推荐(0)

转载一篇好文章:《海量数据处理常用思路和方法》

摘要：最近有点忙，稍微空闲下来，发篇总结贴。大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对阅读全文

posted @ 2011-09-11 21:31 buptLizer 阅读(264) 评论(0) 推荐(0)

优先队列使用

摘要：这个是转得网上的，由于不经常使用，偶尔用的时候还经常出错，所以记下来了,经常使用的已经用红色颜色标出来了：在优先队列中，优先级高的元素先出队列。标准库默认使用元素类型的<操作符来确定它们之间的优先级关系。优先队列的第一种用法，也是最常用的用法：priority_queue<int>qi;通过<操作符可知在整数中元素大的优先级高。故示例1中输出结果为：9 6 5 3 2第二种方法：在示例1中，如果我们要把元素从小到大输出怎么办呢？这时我们可以传入一个比较函数，使用functional.h函数对象作为比较函数。priority_queue<int,vector< 阅读全文

posted @ 2011-09-11 17:48 buptLizer 阅读(5654) 评论(1) 推荐(0)

差分约束系统

摘要：小结：差分约束就是用最短（最长路径）来解决满足一系列约束条件的问题的最优解，首先约束条件必须满足一定的限制，即每个约束条件系数只能为1，-1这样的不等式。差分约束系统的解题过程大致为：a 建立约束图增加一个原点，根据约束条件构造约束图。b 利用dijkstra或者bellman_ford求出最短（长）路径，如果有负边，只能用后者。如果题目要求出最小值，我们将所有的不等式转化成>=,构造出约束图，开始的时候每个dist[i]赋值为-INF,然后求最长路径，这个是原点距离固定的情况，比如题目poj1201，mina是最小坐标，minb是最大坐标,题目让求的是dist[maxb]-dist[m 阅读全文

posted @ 2011-09-11 17:18 buptLizer 阅读(236) 评论(0) 推荐(0)

poj1201 查分约束系统

摘要： oj1201 查分约束系统和1716是同一类题目，求出包含区间中至少c个数的最小集合，建立约束图，就最长路径，把所有的符号转化为>=，利用spfa求解，这个题不能用bellman_ford，会超时。#include <iostream>#include <stdio.h>#include <queue>using namespace std;const int N=50002;const int INF=100000;struct node{ int to,w,next;};node edge[N*3];int n,num,maxb,dist[N],a 阅读全文

posted @ 2011-09-10 22:41 buptLizer 阅读(467) 评论(0) 推荐(0)

poj 3159 Candies

摘要：这题目做的一个纠结啊。N个人份糖果，其中含有约束条件，即对于a,b,c有 b-a<=c,看到这个不等式马上感觉到要用最短路解决了，问Sn-S1的最大值是多少，我们令S1=0即求Sn的最大值，查分约束题目，求最短路，初始原点1到2,3,..,n的距离为INF,每次松弛找到第一组满足约束条件的解，这个解就是最大值，但是这个题目有问题啊，用最常用的bellman_ford无法通过啊，n，m值太大了，只能用spfa或者其他的优化方法，这个题用spfa+stack,用queue也会超时的，我猜想可能stack的访问效率较后者快吧，我最开始用的dijkstra+优先队列，不是超时就是WA，WA的时候阅读全文

posted @ 2011-09-10 22:40 buptLizer 阅读(330) 评论(0) 推荐(0)

poj1738 an old stone game

摘要：石子合并，经典dp，我们定义dp[i][j]表示从i开始的j个石子合并的最小（最大）代价，dp方程为：dp[i][j]=min{dp[i][k]+dp[i+k][j-k]+sum[i][j]},sum[i][j]表示从i开始的j个数的和。这个题目由于规模太大了，无法开一个5000*5000的数组，需要用到其他方法，discuss里面说用Garsia Wachs算法，没听说过，有待研究。下面的是我处理小规模的dp代码：#include #include using namespace std;const int INF=1000000001;const int N = 500;int m[N], 阅读全文

posted @ 2011-09-09 12:00 buptLizer 阅读(642) 评论(0) 推荐(0)

poj3034 Whac-a-Mole (dp)

摘要：打地鼠游戏，dp好题，麻烦的不是写出dp方程，而是求出从（x1,y1）到(x2,y2)这条直线上经过那些整数坐标，利用gcd求出来，并且需要知道的一点是中间的某个点可能跑出到矩形外面，处理跑出矩形外地点只需要扩大范围就行了，行列各增加10，让冒出地鼠的坐标响应的+5即可，dp[t][x][y]表示时刻t坐标xy出得最大个数，那么此状态可能是由上一个状态dp[t-1[i][j]转移过来的，其中（i,j）和(x,y)距离<=d,我们去所有可能的ij中的最优值，代码如下：#include <iostream>#include <cmath>#include <st 阅读全文

posted @ 2011-09-08 15:01 buptLizer 阅读(418) 评论(0) 推荐(0)