会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
联系
订阅
管理
2018年1月15日
大数据类算法问题
摘要: 1.有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词 1G有2^26个单词,1M可以存2^16个词。 step1:利用hash散列方法,hash(x)/5000将文件单词存到5000个不同的空间。(平均下来,每个空间大概有200k大小
阅读全文
posted @ 2018-01-15 21:26 leerle
阅读(157)
评论(0)
推荐(0)
编辑
公告