摘要: 位图 问题 问题1:如何实现网页爬虫中url去重功能? 分析 传统数据结构散列表、红黑树、跳表这些动态数据结构,都能支持快速地插入、查找数据。 但通常爬虫爬取的网页数量级都比较大,假设为10亿个网页,估算一下散列表存储所需的内存: 为了判重,我们把这 10 亿网页链接存储在散列表中。 假设一个 UR 阅读全文
posted @ 2020-01-08 20:16 杨海星 阅读(359) 评论(0) 推荐(0) 编辑