摘要: * 面试答案为LZ所写,如需转载请注明出处,谢谢。 * 这里不涉及HiveSQL和HBase操作的笔试题,这些东西另有总结。 1.MR意义。 MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想。 在分布式计算中,将分布式存储、分布式计算、负载均衡等复杂问题高度抽象成map和red 阅读全文
posted @ 2019-04-19 09:02 yosql473 阅读(453) 评论(0) 推荐(0) 编辑
摘要: BloomFilter是一种高效的去重算法,算法的要义是散列对比。 1.原理 当一个元素加入集合时,判断这个元素是否 2.举例 例如我要对URL去重(这个在爬虫上可以用): URL1 -> 3.实现 阅读全文
posted @ 2019-04-19 08:44 yosql473 阅读(69) 评论(0) 推荐(0) 编辑