摘要: 一、HTTP概述 超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。 客户端发送给服务器的格式叫“请求协议”;服务器发送给客户端的格式叫“响应协议”。 HTTP是无状态协议,FTP是有状态 阅读全文
posted @ 2019-02-27 22:32 余火灬 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架已经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。 1、Scrapy爬虫框架 这是一套比较成熟的python爬虫框架, 阅读全文
posted @ 2019-02-27 11:32 余火灬 阅读(681) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。BeautifulSoup模块中的查找提取功能非常强大,而且非常便捷,它通常可以节省程序员数小时或数天的工作时间。 Beautif 阅读全文
posted @ 2019-02-27 11:11 余火灬 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取了,这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦,设置代理时,首先需要找到代理地址,例如“122.114.31.177”,对应的端口号为“808”,完整的格式为“122.114.31.177:808”,如下 阅读全文
posted @ 2019-02-27 10:39 余火灬 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 在访问一个网页时,如果该网页长时间未响应,系统会判断该网页超时,所以无法打开网页。下面通过代码来模拟一个网络超时的现象,如下: 说起网络异常信息,requsets模块提供了三种常见的网络异常类,如下: 阅读全文
posted @ 2019-02-27 10:32 余火灬 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问,这样就解决了以上反爬虫设置的问题。下面以requests模块为例介 阅读全文
posted @ 2019-02-27 10:05 余火灬 阅读(404) 评论(0) 推荐(0) 编辑
摘要: requests是python中实现http请求的一种方式,requests是第三方模块,该模块在实现http请求时要比urllib模块简化很多,操作更加人性化。特性如下: Keep-Alive&连接池 Unicode响应体 国际化域名和URL HTTP(S)代理支持 带持久Cookie的会话 文件 阅读全文
posted @ 2019-02-27 09:26 余火灬 阅读(132) 评论(0) 推荐(0) 编辑
摘要: urllib3是一个功能强大、条理清晰、用于http客户端的python库,相对于urllib它所有的特点如下: 线程安全 连接池 客户端SSL/TLS验证 使用多部分编码上传文件 Helpers用于重试请求并处理HTTP重定向 支持gzip和deflate编码 支持HTTP和SOCKS代理 100 阅读全文
posted @ 2019-02-27 08:49 余火灬 阅读(521) 评论(0) 推荐(0) 编辑