会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
阿杰的专栏
博客园
首页
新随笔
联系
订阅
管理
2014年9月8日
海量数据处理问题总结
摘要: 常见问题:①Top K问题:分治+Trie树/Hash_map+小顶堆。采用Hash(x)%M将原文件分割成小文件,如果小文件太大则继续Hash分割,直至可以放入内存。②重复问题:BitMap位图 或 Bloom Filter布隆过滤器 或 Hash_set集合。每个元素对应一个bit处理。③排序问...
阅读全文
posted @ 2014-09-08 20:22 阿杰的专栏
阅读(1734)
评论(0)
推荐(0)
编辑
公告