摘要: 一:通用网络爬虫:(1).从种子url爬取扩展到整个Web页面。(2).这类网络爬虫爬取的范围巨大,爬取的数量巨大,对爬取速度和存储空间要求比较高,一般采用并行工作的方式。但是需要较长的时间才可以刷新页面。(3).通用网络爬虫结构致页面爬行模块 、页面析模块、链接滤模块、页面数据库、URL 队列、初始 URL 集合几部分。(4).通用网络爬虫采取定爬行策略 用爬行策略:深度优先策略、广度优先策略二... 阅读全文
posted @ 2017-12-10 19:25 tel逗比先森 阅读(328) 评论(0) 推荐(0) 编辑