会员
商店
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿杰的专栏
博客园
首页
新随笔
联系
订阅
管理
随笔 - 73
文章 - 2
评论 - 11
阅读 -
57841
随笔分类 -
海量数据处理
海量数据处理问题总结
摘要:常见问题:①Top K问题:分治+Trie树/Hash_map+小顶堆。采用Hash(x)%M将原文件分割成小文件,如果小文件太大则继续Hash分割,直至可以放入内存。②重复问题:BitMap位图 或 Bloom Filter布隆过滤器 或 Hash_set集合。每个元素对应一个bit处理。③排序问...
阅读全文
posted @
2014-09-08 20:22
阿杰的专栏
阅读(1765)
评论(0)
推荐(0)
编辑
公告
昵称:
阿杰的专栏
园龄:
11年4个月
粉丝:
4
关注:
0
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
积分与排名
积分 - 47965
排名 - 35364
随笔分类
(92)
AWK教程指南(17)
C/C++基础(10)
LeetCode(16)
Python核心编程(11)
多线程(1)
海量数据处理(1)
数学题(1)
算法-链表(3)
算法-排序(5)
算法-树(6)
算法-数字(4)
算法-数组(10)
算法-图(1)
算法-字符串(6)
更多
阅读排行榜
1. 算法题——单链表的归并排序(9584)
2. 【译】 AWK教程指南(5688)
3. 算法题——二叉树结点的中序遍历的后继结点(3210)
4. 算法题——完全二叉树的底层最右节点(3162)
5. 算法题——最大(连续)子序列乘积(2997)
评论排行榜
1. C语言的 (强制类型转换) 以及 '字符字面值'(5)
2. strcpy()的实现(3)
3. 算法题——单链表的归并排序(1)
4. LeetCode题解——Add Two Numbers(1)
5. 【译】 AWK教程指南(1)
推荐排行榜
1. 位操作的一些常用用法(1)
2. extern "c" 的作用(1)
3. 算法题——最大(连续)子序列乘积(1)
4. 算法题——单链表的归并排序(1)
5. 【译】 AWK教程指南 5AWK中的数组(1)
点击右上角即可分享