摘要: error模块简介 我们在爬虫的时候发请求的时候难免出现错误,如访问不到服务器或者访问被禁止等等, 出错了之后urllib将错误信息封装成了一个模块对象中,这个模块就叫error模块 error的分类 分为URLError和HTTPError。 URLError是OSError的一个子类 有以下错误 阅读全文
posted @ 2018-05-09 23:56 人生不如戏 阅读(425) 评论(0) 推荐(0) 编辑
摘要: urllib简介 简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: 模块安装与导入 urllib是python自带的一个包,无需安装,导入方法如下: urllib.request urllib. 阅读全文
posted @ 2018-05-09 22:43 人生不如戏 阅读(2282) 评论(0) 推荐(1) 编辑
摘要: 爬虫的定义 爬虫:按照一定的规则,自动抓取互联网信息的程序或者脚本,从而获取对于我们有价值的信息。 爬虫的两大特征 爬虫的三大步骤 爬虫的分类 爬虫的结构 Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 爬虫的执行流程 爬虫 阅读全文
posted @ 2018-05-09 21:24 人生不如戏 阅读(981) 评论(0) 推荐(0) 编辑
摘要: 爬虫简介 爬虫简介 爬虫相关urllib包常用模块 urllib.request urllib.error urllib.parse 爬虫身份伪造 UserAgent proxy 爬虫身份认证 CookieJar FileCookieJar 爬虫相关requests包常用模块 requests概述 阅读全文
posted @ 2018-05-09 20:40 人生不如戏 阅读(346) 评论(0) 推荐(0) 编辑