云计算面试题集锦
摘要:
1. 一个大的含有50M个URL的记录,一个小的含有500个URL的记录,找出两个记录里相同的URL。回答:首先使用包含500个url的文件创建一个hash_set。然后遍历50M的url记录,如果url在hash_set中,则输出此url并从hash_set中删除这个url。所有输出的url就是两个记录里相同的url。2. 海量日志数据,提取出某日访问百度次数最多的那个IP。回答:如果日志文件足够的大,大到不能完全加载到内存中的话。那么可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。对于每个小文件,可以 阅读全文
posted @ 2013-10-21 07:23 洪雁君 阅读(3143) 评论(0) 推荐(0) 编辑