lionel chang

导航

海量数据处理

每年各大IT公司招聘的笔试题里面都有海量数据处理的问题,而这些问题在一般的课本中都找不到讲解。在此参考网上牛人的blog,写一个总结。

海量数据处理一般都是要解决非常大量的数据(一般以亿作为单位)的存储,查找等,数据不可能一次性存入到内存当中,往往采用分而治之的方法,将问题简化为我们熟知的状况。

其中使用到方法有:

1.存储问题

   i.位图法

   ii.hash映射

   iii.Bloom filter

   iv.双层桶划分

   v.数据库索引

   vi.倒排索引

   vii.分布式处理 mapreduce

2.查找问题

   归并排序/堆排序/快速排序/trie树+二分查找

一.Bloom filter


posted on 2012-09-03 10:14  woshizyl  阅读(151)  评论(0编辑  收藏  举报