spider(二) 爬虫的工作流程

　　上一篇从概念上介绍了爬虫的作用，其实一个爬虫的构成是很复杂的，在互联网当中，网页之间的关系是无规律的，他们之间的关系也非常的复杂，如果一个爬虫从一个起点开始爬行，那么他会遇到无数多个分支，由此生成无数条的爬行路径，如果放任其爬行，就有可能永远也爬不到头，因此要对爬虫进行策略控制，制定其爬取规则。

　　爬虫主要是为搜索引擎提供大量的数据基础，抓去的对象是互联网上的浩瀚资源，但是再好的爬虫也无法爬取所有的网络资源，所以爬虫如何高效的爬取有用的重要资源是当前亟待解决的问题，我们下面来看一下一个爬虫他主要的一个工作流程，后期的介绍我们也会按照这个工作流程去介绍爬虫的构成，以及一些性能方面的调优。

　　爬虫开始的时候需要给爬虫输送一个url列表，这个列表当中的url地址便是爬虫的起始位置，爬虫从这些url出发，开始了爬行，一直不断的发现新的url，然后再根据策略爬行发现的新的url，如此永远的反复下去，一般的爬虫都是自己简历dns缓冲，简历dns缓冲的目的是加快url解析撑IP地址的速度，google为了获取上亿的网页，设计了分布式的爬虫系统，一个url服务器讲url列表提供给网络爬行器，每个网络爬虫运行若干个连接，这样可以同时做到并行的爬取数据。

　　由此可见爬虫系统是涉及到任务，多线程，策略的庞大的系统，在后续的研究中我们讲会做进一步的阐述。

posted on 2010-10-19 21:47 CoderOnRails 阅读(1299) 评论(0) 编辑收藏举报

刷新页面返回顶部

Coder On Rails

导航

公告

spider(二) 爬虫的工作流程