大数据算法
1.海量日志数据,提取出某日访问百度次数最多的那个IP
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到ip是32位的,最多有个2^32个ip。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,在找出每个小文件中出现频率最大的ip(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的ip中,找出那个频率最大的ip,即为所求。
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2.按照IP地址的hash(ip)%1024(相同的ip一定会被分到同一个文件中,同一文件中各ip的hash值相差1024的整数倍),把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;
3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个ip地址;
4.可以得到1024个小文件中的出现次数最多的ip,再依出现次数排序得到总体上出现次数最多的ip;
2. 给定a、b两个文件,各存放50亿个url/64字节,内存限制是4G,让你找出a、b文件共同的url?
思考:可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。
算法思想:分而治之+Hash
1. 遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。这样每个小文件的大约为300M。
2. 遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,...,b999)。
这样处理后,所有可能相同的url都在对应的小文件(a0&b0,a1&b1,...,a999&b999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
3. 求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。
3.在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。
同样hash(int)%1000,相同的整数一定会被分到一个文件中,然后求每个文件中不重复的数即可。
4.怎么在海量数据中找出重复次数最多的一个?
同上