海量数据处理题集
摘要:
1、海量日志数据,提取出某日访问百度次数最多的那个IP。因为ip地址本省就是用简单的数字表示,可以直接利用hash算法建立一个ip与访问次数的键值对。ip地址最多有2^32约等于40亿,对ip地址用1000取余,得到有1000个4M左右个记录的文件,每个文件都可以直接读入到内存中。然后按照访问次数对每个文件排序,取出每个文件中的最大值,在1000个最大值中再找到最大的那个。2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越 阅读全文
posted @ 2012-09-03 10:41 woshizyl 阅读(328) 评论(0) 推荐(0) 编辑