海量数据处理
每年各大IT公司招聘的笔试题里面都有海量数据处理的问题,而这些问题在一般的课本中都找不到讲解。在此参考网上牛人的blog,写一个总结。
海量数据处理一般都是要解决非常大量的数据(一般以亿作为单位)的存储,查找等,数据不可能一次性存入到内存当中,往往采用分而治之的方法,将问题简化为我们熟知的状况。
其中使用到方法有:
1.存储问题
i.位图法
ii.hash映射
iii.Bloom filter
iv.双层桶划分
v.数据库索引
vi.倒排索引
vii.分布式处理 mapreduce
2.查找问题
归并排序/堆排序/快速排序/trie树+二分查找
一.Bloom filter