打赏
摘要: 一:Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取 的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所 阅读全文
posted @ 2018-05-21 09:56 QueryMarsBo 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 0:Spider爬取数据 一:Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以 阅读全文
posted @ 2018-05-19 09:13 QueryMarsBo 阅读(232) 评论(0) 推荐(0) 编辑
摘要: Scrapy Shell:模拟scrapy去发送请求 Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython 阅读全文
posted @ 2018-05-18 14:27 QueryMarsBo 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spi 阅读全文
posted @ 2018-05-17 19:29 QueryMarsBo 阅读(217) 评论(0) 推荐(0) 编辑
摘要: Scrapy的安装介绍 Scrapy框架官方网址:http://doc.scrapy.org/en/latest Scrapy中文维护站点:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html Windows 安装方式 Python 2 / 阅读全文
posted @ 2018-05-17 10:17 QueryMarsBo 阅读(128) 评论(0) 推荐(0) 编辑
摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-05-17 09:48 QueryMarsBo 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 案例:使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出 阅读全文
posted @ 2018-05-14 11:10 QueryMarsBo 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 一:urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https://docs. 阅读全文
posted @ 2018-05-10 16:50 QueryMarsBo 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 一:爬虫的四个主要步骤 二:什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给 阅读全文
posted @ 2018-05-08 18:49 QueryMarsBo 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 一:Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 阅读全文
posted @ 2018-05-07 14:45 QueryMarsBo 阅读(423) 评论(0) 推荐(0) 编辑