python爬虫学习笔记六：Scrapy爬虫的使用步骤

步骤1：创建一个工程和Spider模板

步骤2：编写Spider

步骤3：编写Item Pipeline

步骤4：优化配置策略

Scrapy爬虫的数据类型

Request类

class scrapy.http.Request()

*Request对象表示一个HTTP请求

*由Spider生成，由Downloader执行

属性或方法	说明
.url	Request对应的请求URL地址
.method	对应的请求方法，‘GET’'POST'等
.headers	字典类型风格的请求头
.body	请求内容主体，字符串类型
.meta	用户添加的扩展信息，在Scrapy内部模块间传递信息使用
.copy()	复制该请求

Response类

class scrapy.http.Response()

*Response对象表示一个HTTP响应

*由Downloader生成，由Spider处理

Item类

class scrapy.item.Item()

*Item对象表示一个从HTML页面中提取的信息内容

*由Spider生成，由Item Pipeline处理

*Item类似字典类型，可以按照字典类型操作

Scrapy爬虫支持多种HTML信息提取方法

*Beautiful Soup

*lxml

*re

*XPath Selector

*CSS Selector

我们介绍一下CSS Selector信息提取方法

<HTML>.CSS('a::attr(href)').extract() //通过标签名称，标签属性来设置相关信息

CSS Selector由W3C组织维护并规范

posted @ 2018-11-29 01:12 yorkmass 阅读(207) 评论(0) 编辑收藏举报

刷新页面返回顶部