spider(二) 爬虫的工作流程
摘要:
上一篇从概念上介绍了爬虫的作用,其实一个爬虫的构成是很复杂的,在互联网当中,网页之间的关系是无规律的,他们之间的关系也非常的复杂,如果一个爬虫从一个起点开始爬行,那么他会遇到无数多个分支,由此生成无数条的爬行路径,如果放任其爬行,就有可能永远也爬不到头,因此要对爬虫进行策略控制,制定其爬取规则。 阅读全文
posted @ 2010-10-19 21:47 CoderOnRails 阅读(1299) 评论(0) 推荐(0) 编辑