CoderOnRails - 博客园

spider(三) 我们是一只礼貌的爬虫

摘要：互联网的信息是共享的，任何人在一定的权限范围下都可以主动的去获取互联网上的资源。不过网络上的资源都存在着多多少少的限制，比如说服务器资源有限，网络资源有限，所以在我们获取资源的同时尽量的不过多的占用资源，从而导致别人无法正常获取。爬虫也是一样，爬虫可以方便快捷的获取网络资源，但是不能因为如此，我们就滥用爬虫获取资源，我们需要遵循一定的规则，这样才能和资源提供方更友好的合作。阅读全文

posted @ 2010-10-21 16:02 CoderOnRails 阅读(760) 评论(1) 推荐(0)

spider(二) 爬虫的工作流程

摘要：　　上一篇从概念上介绍了爬虫的作用，其实一个爬虫的构成是很复杂的，在互联网当中，网页之间的关系是无规律的，他们之间的关系也非常的复杂，如果一个爬虫从一个起点开始爬行，那么他会遇到无数多个分支，由此生成无数条的爬行路径，如果放任其爬行，就有可能永远也爬不到头，因此要对爬虫进行策略控制，制定其爬取规则。阅读全文

posted @ 2010-10-19 21:47 CoderOnRails 阅读(1313) 评论(0) 推荐(0)

spider(一) 什么是spider？

摘要： spider：官方解释是蜘蛛，当然我不是个昆虫爱好者，对蜘蛛也没什么了解，我们这里自然也不会去讨论蜘蛛。好吧，言归正传，我们这里需要讨论一种叫做爬虫的技术，废话又来了，爬虫有什么技术？我们来看看google是怎么工作的吧，看完以后我想你应该对爬虫会有一定的了解的。阅读全文

posted @ 2010-10-19 20:46 CoderOnRails 阅读(1636) 评论(0) 推荐(0)

HTTP协议（四） HTTP响应

摘要：　HTTP响应的格式类似于请求的格式，主要由，响应行，响应头，响应体组成，其格式如下所示阅读全文

posted @ 2010-10-18 16:45 CoderOnRails 阅读(1496) 评论(0) 推荐(0)

HTTP协议（三） HTTP请求

摘要：　 HTTP协议的请求和响应都有一定的规则，这篇网站当中首先着重介绍一下HTTP协议的请求协议的内容。　　HTTP协议的请求主要由一下几部分组成：请求行，请求头，请求体（post）阅读全文

posted @ 2010-10-18 15:55 CoderOnRails 阅读(2076) 评论(0) 推荐(0)

HTTP协议（二） TCP

摘要：众所周知（暂且这么说吧）,HTTP协议是基于TCP的，我想我们有必要了解一下TCP协议，然后会对HTTP协议有个更深的了解。　　TCP协议全称是传输控制协议，他是一种面向连接的协议，什么叫面向连接的协议？这个问题你也可以去google，简单点说，面向连接的协议，需要在建立连接以后，在连接上进行消息的传输，传输完毕后选择关闭连接。我们就来看看这个过程吧。阅读全文

posted @ 2010-10-18 15:11 CoderOnRails 阅读(742) 评论(0) 推荐(0)

HTTP协议（一）初识HTTP协议

摘要：我们用几个问题来认识一下HTTP协议吧。　　Q：什么是HTTP协议？　　A：超文本传输协议，回答完毕。其实这个问题还是去google或者百度，很容易读懂的，我就不在这里罗嗦了。阅读全文

posted @ 2010-10-18 14:42 CoderOnRails 阅读(522) 评论(0) 推荐(0)

Coder On Rails

导航