摘要:
问题:有10 亿个 url,每个 url 大小小于 56B,要求去重,内存只给你4G 思路: 1.首先将给定的url调用hash方法计算出对应的hash的value,在10亿的url中相同url必然有着相同的value。 2.将文件的hash table 放到第value%n台机器上。 3.valu 阅读全文
posted @ 2018-06-05 15:01 和风细雨汪汪 阅读(8985) 评论(1) 推荐(2) 编辑
摘要:
问题:有10 亿个 url,每个 url 大小小于 56B,要求去重,内存只给你4G 思路: 1.首先将给定的url调用hash方法计算出对应的hash的value,在10亿的url中相同url必然有着相同的value。 2.将文件的hash table 放到第value%n台机器上。 3.valu 阅读全文
posted @ 2018-06-05 15:01 和风细雨汪汪 阅读(8985) 评论(1) 推荐(2) 编辑 |
||