Scrapy 简单操作

 现在shell里面

scrapy startproject tutorial

然后

cd tutorial

scrapy genspider quotes quotes.toscrape.com

 

观察原始页面发现数据存储在3个内容里面

text
author

tags
然后修改Items.py
复制代码
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class QuoteItem(scrapy.Item): 
  text= scrapy.Field()
  author
=scrapy.Field()
  tags
= scrapy.Field()

      
复制代码

 修改quotes.py为

复制代码
# -*- coding: utf-8 -*-
import scrapy
from tutorial.items import QuoteItem

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        quotes = response.css('.quote')
        for quote in quotes:
            item=QuoteItem()
            item['text'] = quote.css('.text::text').extract_first()
            item['author'] = quote.css('.author::text').extract_first()
            item['tags'] = quote.css('.tags .tga::text').extract()
            yield item
        next=response.css('.pager .next a::attr(href)').extract_first()
        url = response.urljoin(next)
        yield scrapy.Request(url=url,callback=self.parse)
复制代码

然后在shell里面cd到spiders目录下

scrapy crawl quotes -o quotes.csv

 运行并输出到csv

 

如果要进行更复杂的操作,如将结果保存到MongoDb数据库,或者筛选某些有用的数据,将会用到pipelines.py

Item Pipeline 为项目管道,到Item生成后,自动传送到pipelines 进行处理。

常用pipelines做以下操作:

1,清理html数据

2.验证爬取数据,检查爬取字段。

3,查重并丢弃重复内容

4,将爬取结果保存到数据库

 

posted on   kelx  阅读(108)  评论(0编辑  收藏  举报

(评论功能已被禁用)
编辑推荐:
· 智能桌面机器人:用.NET IoT库控制舵机并多方法播放表情
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
阅读排行:
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· 新年开篇:在本地部署DeepSeek大模型实现联网增强的AI应用
· Janus Pro:DeepSeek 开源革新,多模态 AI 的未来
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(三):用.NET IoT库
· 【非技术】说说2024年我都干了些啥

导航

< 2025年1月 >
29 30 31 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示