大数据算法

1.海量日志数据，提取出某日访问百度次数最多的那个IP

　　首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到ip是32位的，最多有个2^32个ip。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，在找出每个小文件中出现频率最大的ip（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的ip中，找出那个频率最大的ip，即为所求。

算法思想：分而治之+Hash

1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；

2.按照IP地址的hash(ip)%1024（相同的ip一定会被分到同一个文件中，同一文件中各ip的hash值相差1024的整数倍）,把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；

3.对于每个小文件，可以构建一个ip为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个ip地址；

4.可以得到1024个小文件中的出现次数最多的ip，再依出现次数排序得到总体上出现次数最多的ip；

2. 给定a、b两个文件，各存放50亿个url/64字节，内存限制是4G，让你找出a、b文件共同的url？

思考：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。

算法思想：分而治之+Hash

1. 遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。

2. 遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。

这样处理后，所有可能相同的url都在对应的小文件（a0&b0,a1&b1,...,a999&b999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

3. 求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

3.在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

同样hash(int)%1000，相同的整数一定会被分到一个文件中，然后求每个文件中不重复的数即可。

4.怎么在海量数据中找出重复次数最多的一个？

同上

posted @ 2017-03-14 17:59 北方寒士阅读(242) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

不受人言驱使，不失己言风范。

天道酬勤，地道庇隐，人道慕高，己道格物。

大数据算法

2. 给定a、b两个文件，各存放50亿个url/64字节，内存限制是4G，让你找出a、b文件共同的url？

公告