会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
H__D
公告
日历
导航
博客园
首页
新随笔
新文章
联系
订阅
管理
2021年7月3日
【算法】海量数据处理算法(top K问题)
摘要: 举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进行遍历 把堆归并起来 具体的方案 1.分治: 顺序读文件中,对于每个词c,取hash(c)%2000
阅读全文
posted @ 2021-07-03 01:09 H__D
阅读(161)
评论(0)
推荐(0)
编辑
Copyright © 2024 H__D
Powered by .NET 9.0 on Kubernetes