摘要: 当为了确保爬到的数据中没有重复的数据的时候,可以实现一个去重的item pipeline 增加构造器方法,在其中初始化用于对与书名的去重的集合 在process_item方法中,先取出item中要判断的字段的名称,检查是否已经存在集合中了,如果已经存在了就是重复的数据抛出一个DropItem的异常, 阅读全文
posted @ 2019-10-18 19:53 tulintao 阅读(758) 评论(0) 推荐(0) 编辑
摘要: 在创建一个scrapy项目的时候,会自动生成一个pipeliens.py文件,它是用来放置用户自定义的item pipeline, 一个 item pipeline不需要继承特定的基类,只需要实现某些特定的方法,例如process_item、open_spider、close_spider 一个it 阅读全文
posted @ 2019-10-18 19:53 tulintao 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 1、创建对象 Selector类的实现位于scrapy.selector模块,创建Selector对象的时候,可以将页面的Html文档字符串传递给Selector构造器方法 2、选中数据 调用Selector对象的xpath或者css方法(传入xpath或者css选择器表达式),可以选中文档中的某一 阅读全文
posted @ 2019-10-18 13:55 tulintao 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 前言: 如果框架中的组件比做成是人的各个器官的话,那个Request和Response就是血液,Item就是代谢产物 Request对象: 是用来描述一个HTTP请求,其构造参数有 这里面虽然有很多参数,但是除了url意外其它的都是可选参数,是带有默认值的。在构造Request对象的时候,通常我们只 阅读全文
posted @ 2019-10-18 13:34 tulintao 阅读(685) 评论(0) 推荐(0) 编辑