Coder On Rails

致力于爬虫的学习

导航

spider(一) 什么是spider?

  spider:官方解释是蜘蛛,当然我不是个昆虫爱好者,对蜘蛛也没什么了解,我们这里自然也不会去讨论蜘蛛。好吧,言归正传,我们这里需要讨论一种叫做爬虫的技术,废话又来了,爬虫有什么技术?我们来看看google是怎么工作的吧,看完以后我想你应该对爬虫会有一定的了解的。

  看到了没,这里我们把爬虫称作网络蜘蛛,网络蜘蛛==网络爬虫,如果你对上图当中的索引,搜索不是很了解的话,没关系,你可以去看huangfox的博客,在那里你应该可以看到什么是索引。在这里你只需要知道爬虫是用来从浩瀚的网络资源当中抓去数据的,其他的无需多知道。

  好了,你现在感官上你知道爬虫是干嘛的了吧,爬虫的能力远远没有你想的那么简单,全世界有几十亿,上百亿的网络资源,这些资源靠人是无法收集完整的,这时候网络爬虫的作用就尤为明显。

  我们都知道,我们用浏览器可以看到很多网络资源,爬虫就也可以通过HTTP协议(前面笔者也做了简单的介绍)获得我们所能接触到的所有网络资源。

  到这里,我们只需要知道爬虫是用来爬取网络数据的就够了,其他的会在后面的分享当中给大家做描述。

posted on 2010-10-19 20:46  CoderOnRails  阅读(1595)  评论(0编辑  收藏  举报