摘要: 一、Scrapy简介 Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在,Scrapy已经推出了曾承诺过的Python3.x版本。 为什么学习Scrapy呢?它能我们更好的完成爬 阅读全文
posted @ 2018-02-04 17:14 Big_hua 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文
posted @ 2018-02-04 16:54 Big_hua 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 一、为何要设置User Agent 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文 阅读全文
posted @ 2018-02-04 16:44 Big_hua 阅读(693) 评论(0) 推荐(0) 编辑
摘要: 一.urllib.error urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。如下图所示: URLError是OSError的一个子类,HTTPError是URLError的一个子类,服务器上HTTP 阅读全文
posted @ 2018-02-04 16:40 Big_hua 阅读(2874) 评论(0) 推荐(0) 编辑
摘要: 一、urlopen的url参数 Agent url不仅可以是一个字符串,例如:http://www.baidu.com。url也可以是一个Request对象,这就需要我们先定义一个Request对象,然后将这个Request对象作为urlopen的参数使用,方法如下: 1 2 3 4 5 6 7 8 阅读全文
posted @ 2018-02-04 16:30 Big_hua 阅读(717) 评论(0) 推荐(1) 编辑
摘要: 一、预备知识 1.Python3.x基础知识学习: 可以在通过如下方式进行学习: (1)廖雪峰Python3教程(文档): URL:http://www.liaoxuefeng.com/ (2)菜鸟教程Python3教程(文档): URL:http://www.runoob.com/python3/ 阅读全文
posted @ 2018-02-04 16:26 Big_hua 阅读(2460) 评论(0) 推荐(0) 编辑