lionel chang

导航

2012年9月3日 #

海量数据处理题集

摘要: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。因为ip地址本省就是用简单的数字表示,可以直接利用hash算法建立一个ip与访问次数的键值对。ip地址最多有2^32约等于40亿,对ip地址用1000取余,得到有1000个4M左右个记录的文件,每个文件都可以直接读入到内存中。然后按照访问次数对每个文件排序,取出每个文件中的最大值,在1000个最大值中再找到最大的那个。2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越 阅读全文

posted @ 2012-09-03 10:41 woshizyl 阅读(328) 评论(0) 推荐(0) 编辑

海量数据处理

摘要: 每年各大IT公司招聘的笔试题里面都有海量数据处理的问题,而这些问题在一般的课本中都找不到讲解。在此参考网上牛人的blog,写一个总结。海量数据处理一般都是要解决非常大量的数据(一般以亿作为单位)的存储,查找等,数据不可能一次性存入到内存当中,往往采用分而治之的方法,将问题简化为我们熟知的状况。其中使用到方法有:1.存储问题 i.位图法 ii.hash映射 iii.Bloom filter iv.双层桶划分 v.数据库索引 vi.倒排索引 vii.分布式处理 mapreduce2.查找问题 归并排序/堆排序/快速排序/trie树+二分查找一.Bloom filter 阅读全文

posted @ 2012-09-03 10:14 woshizyl 阅读(151) 评论(0) 推荐(0) 编辑