海量数据题目分析(转自网络)

给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL

对于这个题目,我们可以利用C语言的位数组来解决,建一个100亿的位数组,即,bit b[10000000000];//10个0,不用担心超过内存大小,我们可以算一下1*10的10次方bit,一共是大概1.25个G这样的内存, 
然后我们按顺序读入数据A,每从a中获得一条url时,我们可以用url获得它的hash值(经典的散列函数很多),然后将它的hash值映射到这个位数组中,将b[hash值]=1,读完了a数组,这个位数组有50亿位已经被置为1了,然后我们读入b文件,每读入一条用同样的hash函数算,再映射到位数组中,如果那一位已经被置为1说明 b中的这条url和a中的一样 就将它保存下来,读完 b数组 所有的相同Url就都保存下来了,这个方法是线性的,希望楼主看看。
posted @ 2011-09-23 22:59  jiangC  阅读(180)  评论(0编辑  收藏  举报