海量数据常见面试问题

1.统计出IP的文件,哪个ip出现的次数最多,一行一个ip。如果文件很大,超过内存。

(1)将ip地址放入多个小文件中,保证每种IP只出现在一个文件中
(2)利用hashmap统计每个小文件中IP出现的次数
(3)利用最小堆得到所有IP访问次数最多的100个

 

 

2.给定a、b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a、b两个文件共同的url?

 

 

 参考:1、找出a、b文件共同的url

3.现在有一个非常庞大的URL库(100E),然后现在还有一个URL,(迅速)判断这个URL是否在这个URL库中?

 布隆过滤器

 

其他参考:

一网打尽海量数据面试问题

 Top K 之 ---- 海量数据找出现次数最多或,不重复的。

posted @ 2021-05-17 23:05  奇遇yms  阅读(137)  评论(0编辑  收藏  举报