Fork me on GitHub
摘要: [TOC] 1.目标 爬取每个页面链接的内部内容和投诉信息 2.方法1:通过Spider爬取 python coding: utf 8 import scrapy from dongguanSpider.items import DongguanItem class SunSpider(scrapy 阅读全文
posted @ 2019-02-15 22:04 Bricker666 阅读(1083) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1.CrawlSpider介绍 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获 阅读全文
posted @ 2019-02-15 15:16 Bricker666 阅读(450) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最 阅读全文
posted @ 2019-02-15 14:20 Bricker666 阅读(295) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item 阅读全文
posted @ 2019-02-15 11:05 Bricker666 阅读(291) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. Scrapy介绍 1.1. Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 (引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 (调 阅读全文
posted @ 2019-02-15 10:57 Bricker666 阅读(378) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. 目标 目标:https://hr.tencent.com/position.php?&start=0 a 爬取所有的职位信息信息 职位名 职位url 职位类型 职位人数 工作地点 发布时间 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文 阅读全文
posted @ 2019-02-15 10:37 Bricker666 阅读(590) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. 新建scrapy项目 得到了如下的文件 其内部文件结构如下: 2. 爬虫文件: 我们打算抓取:http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。 2.1. 查看需要爬取内容存在哪里: 我们可以通过respo 阅读全文
posted @ 2019-02-15 09:40 Bricker666 阅读(1209) 评论(0) 推荐(0) 编辑