spider(一) 什么是spider？

　　spider：官方解释是蜘蛛，当然我不是个昆虫爱好者，对蜘蛛也没什么了解，我们这里自然也不会去讨论蜘蛛。好吧，言归正传，我们这里需要讨论一种叫做爬虫的技术，废话又来了，爬虫有什么技术？我们来看看google是怎么工作的吧，看完以后我想你应该对爬虫会有一定的了解的。

　　看到了没，这里我们把爬虫称作网络蜘蛛，网络蜘蛛==网络爬虫，如果你对上图当中的索引，搜索不是很了解的话，没关系，你可以去看huangfox的博客,在那里你应该可以看到什么是索引。在这里你只需要知道爬虫是用来从浩瀚的网络资源当中抓去数据的，其他的无需多知道。

　　好了，你现在感官上你知道爬虫是干嘛的了吧，爬虫的能力远远没有你想的那么简单，全世界有几十亿，上百亿的网络资源，这些资源靠人是无法收集完整的，这时候网络爬虫的作用就尤为明显。

　　我们都知道，我们用浏览器可以看到很多网络资源，爬虫就也可以通过HTTP协议（前面笔者也做了简单的介绍）获得我们所能接触到的所有网络资源。

　　到这里，我们只需要知道爬虫是用来爬取网络数据的就够了，其他的会在后面的分享当中给大家做描述。

posted on 2010-10-19 20:46 CoderOnRails 阅读(1595) 评论(0) 编辑收藏举报

刷新页面返回顶部

Coder On Rails