水下功夫做透,水上才能顺风顺水。

大数据算法

1.海量日志数据,提取出某日访问百度次数最多的那个IP

  首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到ip是32位的,最多有个2^32个ip。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,在找出每个小文件中出现频率最大的ip(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的ip中,找出那个频率最大的ip,即为所求。

算法思想:分而治之+Hash

1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;

2.按照IP地址的hash(ip)%1024相同的ip一定会被分到同一个文件中,同一文件中各ip的hash值相差1024的整数倍),把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MBIP地址;

3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个ip地址;

4.可以得到1024个小文件中的出现次数最多的ip,再依出现次数排序得到总体上出现次数最多的ip;

2. 给定a、b两个文件,各存放50亿个url/64字节,内存限制是4G,让你找出a、b文件共同的url?

思考:可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。

算法思想:分而治之+Hash

1. 遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。这样每个小文件的大约为300M。

2. 遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,...,b999)。

这样处理后,所有可能相同的url都在对应的小文件(a0&b0,a1&b1,...,a999&b999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

3. 求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。 

3.在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

同样hash(int)%1000,相同的整数一定会被分到一个文件中,然后求每个文件中不重复的数即可。

4.怎么在海量数据中找出重复次数最多的一个?

同上

 

posted @ 2017-03-14 17:59  北方寒士  阅读(248)  评论(0编辑  收藏  举报