爬虫技术 -- 基本学习(二)爬虫基本认知
爬虫策略:
网页抓取策略分为三种:深度优先、广度优先和最佳优先。
爬虫的行为策略:
(1)选择策略:选择要下载的页面。
(2)重新访问策略:页面什么时候会更新。
(3)并行策略:通过分布式抓取获得更好效果。
爬虫的组成:
在网络爬虫的系统框架中,主要由控制器、解析器、资源库三个部分组成。
- 控制器:主要负责给多线程中的各个爬虫线程分配任务。
- 解析器:主要是下载网页,进行网页处理。主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉。爬虫的基本工作时由解析器完成。
- 资源库:用来存放下载到的网页资源,一般由大型数据库存储。
URL一般化:
URL一般化也称为URL标准化,主要是修正URL,来避免重复抓取某些资源。