摘要: 一、Beautiful Soup简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据 阅读全文
posted @ 2018-02-05 22:01 Big_hua 阅读(1785) 评论(0) 推荐(0) 编辑
摘要: import refrom urllib import requestclass Sprder: def __init__(self): self.page=1 self.switch=True def loadPage(self): """" 下载页面 """ url="http://www.ne 阅读全文
posted @ 2018-02-05 18:51 Big_hua 阅读(521) 评论(0) 推荐(0) 编辑
摘要: import urllib.request import urllib.parse from lxml import etree def loadPage(url): """ 作用:根据url发送请求,获取服务器响应文件 url: 需要爬取的url地址 """ #print url #美女 # he 阅读全文
posted @ 2018-02-05 18:50 Big_hua 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 一、Scrapy简介 Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在,Scrapy已经推出了曾承诺过的Python3.x版本。 为什么学习Scrapy呢?它能我们更好的完成爬 阅读全文
posted @ 2018-02-04 17:14 Big_hua 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文
posted @ 2018-02-04 16:54 Big_hua 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 一、为何要设置User Agent 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文 阅读全文
posted @ 2018-02-04 16:44 Big_hua 阅读(693) 评论(0) 推荐(0) 编辑
摘要: 一.urllib.error urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。如下图所示: URLError是OSError的一个子类,HTTPError是URLError的一个子类,服务器上HTTP 阅读全文
posted @ 2018-02-04 16:40 Big_hua 阅读(2874) 评论(0) 推荐(0) 编辑
摘要: 一、urlopen的url参数 Agent url不仅可以是一个字符串,例如:http://www.baidu.com。url也可以是一个Request对象,这就需要我们先定义一个Request对象,然后将这个Request对象作为urlopen的参数使用,方法如下: 1 2 3 4 5 6 7 8 阅读全文
posted @ 2018-02-04 16:30 Big_hua 阅读(717) 评论(0) 推荐(1) 编辑
摘要: 一、预备知识 1.Python3.x基础知识学习: 可以在通过如下方式进行学习: (1)廖雪峰Python3教程(文档): URL:http://www.liaoxuefeng.com/ (2)菜鸟教程Python3教程(文档): URL:http://www.runoob.com/python3/ 阅读全文
posted @ 2018-02-04 16:26 Big_hua 阅读(2460) 评论(0) 推荐(0) 编辑
摘要: Sublime Text Sublime Text 是一个代码编辑器(Sublime Text 2是收费软件,但可以无限期试用) Sublime Text是由程序员Jon Skinner于2008年1月份所开发出来,它最初被设计为一个具有丰富扩展功能的Vim。 Sublime Text具有漂亮的用户 阅读全文
posted @ 2018-01-31 23:13 Big_hua 阅读(276) 评论(0) 推荐(0) 编辑