会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
杨海星
吾尝终日而思矣,不如须臾之所学也
博客园
首页
新随笔
联系
订阅
管理
2020年1月8日
数据结构与算法简记--位图
摘要: 位图 问题 问题1:如何实现网页爬虫中url去重功能? 分析 传统数据结构散列表、红黑树、跳表这些动态数据结构,都能支持快速地插入、查找数据。 但通常爬虫爬取的网页数量级都比较大,假设为10亿个网页,估算一下散列表存储所需的内存: 为了判重,我们把这 10 亿网页链接存储在散列表中。 假设一个 UR
阅读全文
posted @ 2020-01-08 20:16 杨海星
阅读(359)
评论(0)
推荐(0)
编辑
公告