Coder On Rails

致力于爬虫的学习

导航

2010年10月19日 #

spider(二) 爬虫的工作流程

摘要:   上一篇从概念上介绍了爬虫的作用,其实一个爬虫的构成是很复杂的,在互联网当中,网页之间的关系是无规律的,他们之间的关系也非常的复杂,如果一个爬虫从一个起点开始爬行,那么他会遇到无数多个分支,由此生成无数条的爬行路径,如果放任其爬行,就有可能永远也爬不到头,因此要对爬虫进行策略控制,制定其爬取规则。 阅读全文

posted @ 2010-10-19 21:47 CoderOnRails 阅读(1299) 评论(0) 推荐(0) 编辑

spider(一) 什么是spider?

摘要: spider:官方解释是蜘蛛,当然我不是个昆虫爱好者,对蜘蛛也没什么了解,我们这里自然也不会去讨论蜘蛛。好吧,言归正传,我们这里需要讨论一种叫做爬虫的技术,废话又来了,爬虫有什么技术?我们来看看google是怎么工作的吧,看完以后我想你应该对爬虫会有一定的了解的。 阅读全文

posted @ 2010-10-19 20:46 CoderOnRails 阅读(1594) 评论(0) 推荐(0) 编辑