会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Boy.yu
欢迎进入BdSky,一片畅谈技术的蓝天。我是Boy.yu,一名集帅气与技术于一身的编程爱好者。在BdSky,我们可以共同探讨java/算法/Linux/hadoop/hive/hbase/scala/strom/spark/大数据未来......,期待与你的沟通。QQ:2822267367 Email:2822267367@qq.com
博客园
首页
新随笔
联系
订阅
管理
2016年9月25日
你不得不知道的十个大数据面试题
摘要: 1 海量日志数据,提取出某日访问百度次数最多的那个IP 解法1: (1)海量日志,文件太大,IP地址最多有2^32=4G,无法装入内存,,将这个大文件(hash映射:可以取模00)分成多个小文件(如1000)。 (2)对每个小文件进行hash统计,hash_map(ip,value), 得到每个文件
阅读全文
posted @ 2016-09-25 20:34 Boy.yu
阅读(2974)
评论(0)
推荐(0)
编辑
公告