Scrapy items 项目

1.items

  抓取的主要目标是从非结构化来源(通常是网页)中提取结构化数据. spider可以将提取的数据返回为items,即定义键值对的 Python 对象。

  scrapy支持多种类型的items。

  scrapy通过itemadapter库支持以下类型的item: 字典(dictionaries),item对象,dataclass objects(数据类对象),attrs objects

  1)字典

    作为一个item类型,dict是即方便又熟悉的

  2) item对象

    item对象复制标准dict api,包括其__init__方法

    item对象还提供了复制 item.copy(),深拷贝item.deepcopy() 并返回

    fields此item的所有声明字段

    如下所示

class QuoteItem(scrapy.Item):
    text=scrapy.Field()
    author=scrapy.Field()
    tags=scrapy.Field()

  3)数据类对象

    如下所示,CustomItem被声明为一个数据类对象,该类可以定义字段类型和默认值 

from dataclasses import dataclass

@dataclass
class CustomItem:
    one_field: str
    another_field: int

  4)attr 

    需要安装attrs包,暂不介绍

 

posted on 2022-12-26 12:12  花阴偷移  阅读(6)  评论(0编辑  收藏  举报

导航