2019 年 10月 18 日随笔档案 - tulintao

2019年10月18日

摘要：当为了确保爬到的数据中没有重复的数据的时候，可以实现一个去重的item pipeline 增加构造器方法，在其中初始化用于对与书名的去重的集合在process_item方法中，先取出item中要判断的字段的名称，检查是否已经存在集合中了，如果已经存在了就是重复的数据抛出一个DropItem的异常，阅读全文

posted @ 2019-10-18 19:53 tulintao 阅读(764) 评论(0) 推荐(0) 编辑

Item Pipeline

摘要：在创建一个scrapy项目的时候，会自动生成一个pipeliens.py文件，它是用来放置用户自定义的item pipeline，一个 item pipeline不需要继承特定的基类，只需要实现某些特定的方法，例如process_item、open_spider、close_spider 一个it 阅读全文

posted @ 2019-10-18 19:53 tulintao 阅读(251) 评论(0) 推荐(0) 编辑

在scrapy中利用Selector来提取数据

摘要： 1、创建对象 Selector类的实现位于scrapy.selector模块，创建Selector对象的时候，可以将页面的Html文档字符串传递给Selector构造器方法 2、选中数据调用Selector对象的xpath或者css方法（传入xpath或者css选择器表达式），可以选中文档中的某一阅读全文

posted @ 2019-10-18 13:55 tulintao 阅读(279) 评论(0) 推荐(0) 编辑

scrapy中的Request和Response对象

摘要：前言：如果框架中的组件比做成是人的各个器官的话，那个Request和Response就是血液，Item就是代谢产物 Request对象：是用来描述一个HTTP请求，其构造参数有这里面虽然有很多参数，但是除了url意外其它的都是可选参数，是带有默认值的。在构造Request对象的时候，通常我们只阅读全文

posted @ 2019-10-18 13:34 tulintao 阅读(692) 评论(0) 推荐(0) 编辑

tulintao

公告