摘要: 爬虫策略: 网页抓取策略分为三种:深度优先、广度优先和最佳优先。 爬虫的行为策略: (1)选择策略:选择要下载的页面。 (2)重新访问策略:页面什么时候会更新。 (3)并行策略:通过分布式抓取获得更好效果。 爬虫的组成: 在网络爬虫的系统框架中,主要由控制器、解析器、资源库三个部分组成。 控制器:主 阅读全文
posted @ 2013-12-07 22:44 lmei 阅读(1465) 评论(0) 推荐(0) 编辑