爬虫技术 -- 基本学习(二)爬虫基本认知

  爬虫策略:

网页抓取策略分为三种:深度优先、广度优先和最佳优先。

 

 爬虫的行为策略:

(1)选择策略:选择要下载的页面。

(2)重新访问策略:页面什么时候会更新。

(3)并行策略:通过分布式抓取获得更好效果。

 

  爬虫的组成:

  在网络爬虫的系统框架中,主要由控制器、解析器、资源库三个部分组成。

  • 控制器:主要负责给多线程中的各个爬虫线程分配任务。
  • 解析器:主要是下载网页,进行网页处理。主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉。爬虫的基本工作时由解析器完成。
  • 资源库:用来存放下载到的网页资源,一般由大型数据库存储。

 

     URL一般化:

  URL一般化也称为URL标准化,主要是修正URL,来避免重复抓取某些资源。

posted @ 2013-12-07 22:44  lmei  阅读(1465)  评论(0编辑  收藏  举报