2018年11月28日
摘要: 问题描述:现有海量日志数据保存在一个超大的文件中,该文件无法直接存入内存,要求从 中提取某天访问BD次数最多的IP 分析解读:由于这个题目只关心某一天访问次数最多的IP,因此可以首先对文件进行一次遍历,把这一天访问的IP的相关信息记录到一个单独的文件中。接下来可以用之... 阅读全文
posted @ 2018-11-28 14:48 CircleYuan 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 问题描述:在2.5亿个整数中找出不重复的数,注意,内存不足以容纳2.5亿个整数。 分析解读:方法一:分治法采用hash的方法,把这2.5亿个数划分到更小的文件中,从而保证每个文件的大小不超过可用内存的大小。然后对于每个小文件而言,所有的数据可以一次性被加载到内存中,因... 阅读全文
posted @ 2018-11-28 14:45 CircleYuan 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 题目描述:在2.5亿个整数中判断一个数是否存在,注意,内存不足以容纳2.5亿个整数。 分析解答:方法一:分治法对于大数据相关的算法题,分治法是一个非常好的方法。针对这一题来说,主要思路为:可以根据实际可用内存的情况,确定一个Hash函数,比如:hash(value)%... 阅读全文
posted @ 2018-11-28 14:43 CircleYuan 阅读(434) 评论(0) 推荐(0) 编辑