2019年5月22日

Scrapy 使用 Item 封装数据、使用 Item Pipline处理数据

摘要: 1、Item 和 Field Scrapy 提供一下两个类,用户可以使用它们自定义数据类,封装爬取到的数据: (1)Item类 自定义数据类(如 BookItem)的基类 (2)Field 用来描述自定义数据类包含那些字段(如 name、age等) 自定义一个数据类,只需继承 Item ,并创建一系 阅读全文

posted @ 2019-05-22 17:24 海纳百川_有容乃大 阅读(389) 评论(0) 推荐(0) 编辑

XPath 和 CSS

摘要: 1、XPath XPath 即 XML 路径语言 (XML Path Language),他是一种用来确定 xml 文档中某部分位置的语言。 xml文档(html 属于 xml)是由一系列节点构成的树,例如: xml 文档的节点有多种类型,其中最常用的有一下几种: (1)根节点 整个文档树的根 (2 阅读全文

posted @ 2019-05-22 14:58 海纳百川_有容乃大 阅读(249) 评论(0) 推荐(0) 编辑

Scrapy 中的 Request 对象和 Respionse 对象

摘要: 1、Request 对象 Request 对象用来描述一个 HTTP 请求,下面是其构造方法的参数列表 下面一次介绍这些参数 (1) url (必选) 请求页面的 url 地址, bytes 或 str 类型 如 ‘http://www.python.org/doc’ (2)callback 页面解 阅读全文

posted @ 2019-05-22 13:32 海纳百川_有容乃大 阅读(247) 评论(0) 推荐(0) 编辑

Scrapy 框架结构及工作原理

摘要: 1、下图为 Scrapy 框架的组成结构,并从数据流的角度揭示 Scrapy 的工作原理 2、首先、简单了解一下 Scrapy 框架中的各个组件 对于用户来说,Spider 是最核心的组件,Scrapy 开发是围绕着 Spider 展开的 3、接下来,看一下框架中的数据流 Request 和 Res 阅读全文

posted @ 2019-05-22 11:03 海纳百川_有容乃大 阅读(450) 评论(0) 推荐(0) 编辑

Scrapy 常用的shell执行命令

摘要: 1、在任意系统下,可以使用 pip 安装 Scrapy E:\data\job\job>scrapyScrapy 1.6.0 - project: job Usage: scrapy <command> [options] [args] Available commands: bench Run q 阅读全文

posted @ 2019-05-22 10:24 海纳百川_有容乃大 阅读(1786) 评论(0) 推荐(0) 编辑

导航