Coder On Rails

致力于爬虫的学习

导航

2010年10月21日 #

spider(三) 我们是一只礼貌的爬虫

摘要: 互联网的信息是共享的,任何人在一定的权限范围下都可以主动的去获取互联网上的资源。不过网络上的资源都存在着多多少少的限制,比如说服务器资源有限,网络资源有限,所以在我们获取资源的同时尽量的不过多的占用资源,从而导致别人无法正常获取。爬虫也是一样,爬虫可以方便快捷的获取网络资源,但是不能因为如此,我们就滥用爬虫获取资源,我们需要遵循一定的规则,这样才能和资源提供方更友好的合作。 阅读全文

posted @ 2010-10-21 16:02 CoderOnRails 阅读(714) 评论(1) 推荐(0) 编辑

2010年10月19日 #

spider(二) 爬虫的工作流程

摘要:   上一篇从概念上介绍了爬虫的作用,其实一个爬虫的构成是很复杂的,在互联网当中,网页之间的关系是无规律的,他们之间的关系也非常的复杂,如果一个爬虫从一个起点开始爬行,那么他会遇到无数多个分支,由此生成无数条的爬行路径,如果放任其爬行,就有可能永远也爬不到头,因此要对爬虫进行策略控制,制定其爬取规则。 阅读全文

posted @ 2010-10-19 21:47 CoderOnRails 阅读(1296) 评论(0) 推荐(0) 编辑

spider(一) 什么是spider?

摘要: spider:官方解释是蜘蛛,当然我不是个昆虫爱好者,对蜘蛛也没什么了解,我们这里自然也不会去讨论蜘蛛。好吧,言归正传,我们这里需要讨论一种叫做爬虫的技术,废话又来了,爬虫有什么技术?我们来看看google是怎么工作的吧,看完以后我想你应该对爬虫会有一定的了解的。 阅读全文

posted @ 2010-10-19 20:46 CoderOnRails 阅读(1591) 评论(0) 推荐(0) 编辑

2010年10月18日 #

HTTP协议(四) HTTP响应

摘要:  HTTP响应的格式类似于请求的格式,主要由,响应行,响应头,响应体组成,其格式如下所示 阅读全文

posted @ 2010-10-18 16:45 CoderOnRails 阅读(1474) 评论(0) 推荐(0) 编辑

HTTP协议(三) HTTP请求

摘要:   HTTP协议的请求和响应都有一定的规则,这篇网站当中首先着重介绍一下HTTP协议的请求协议的内容。   HTTP协议的请求主要由一下几部分组成:请求行,请求头,请求体(post) 阅读全文

posted @ 2010-10-18 15:55 CoderOnRails 阅读(2062) 评论(0) 推荐(0) 编辑

HTTP协议(二) TCP

摘要: 众所周知(暂且这么说吧),HTTP协议是基于TCP的,我想我们有必要了解一下TCP协议,然后会对HTTP协议有个更深的了解。   TCP协议全称是传输控制协议,他是一种面向连接的协议,什么叫面向连接的协议?这个问题你也可以去google,简单点说,面向连接的协议,需要在建立连接以后,在连接上进行消息的传输,传输完毕后选择 关闭连接。我们就来看看这个过程吧。 阅读全文

posted @ 2010-10-18 15:11 CoderOnRails 阅读(730) 评论(0) 推荐(0) 编辑

HTTP协议(一) 初识HTTP协议

摘要: 我们用几个问题来认识一下HTTP协议吧。   Q:什么是HTTP协议?   A:超文本传输协议,回答完毕。其实这个问题还是去google或者百度,很容易读懂的,我就不在这里罗嗦了。 阅读全文

posted @ 2010-10-18 14:42 CoderOnRails 阅读(518) 评论(0) 推荐(0) 编辑