Scrapy入门

简介

安装与使用

安装scrapy

键入命令即可

$ pip install scrapy

初步使用

新建项目

在想要创建工程的文件夹目录下面，键入命令：

scrapy startproject projectName

projectName为项目的名字

创建一个爬虫文件

进入工程目录当中，在spiders子目录中创建一个爬虫文件：

scrapy genspider spiderName www.xxx.com

爬虫文件解析

import scrapy

class FirstSpider(scrapy.Spider):
  name='first'
  # 允许的域名
  # 用来限定start_urls列表中那些url可以进行请求发送
  allowed_domains = ['www.xxx.com']
  # 起始的url列表
  # 该列表中存放的url会被scrapy自动进行请求的发送
  start_urls = ['http://www.xxx.com/']

  # 用作数据解析
  # response参数表述的是请求成功后对应的相应对象
  def parse(self, response):
    pass

settings配置

关闭robots.txt

在settings中，scrapy默认开启了遵从robots.txt这一反爬的君子协议。
我们在学习阶段将其关掉。

更改 USER_AGENT

复制浏览器中的USER_AGENT赋给USER_AGENT变量。

执行工程

scrapy crawl spiderName

输出中有很多日志影响我们查找我们需要的信息，如果不打印日志，可以使用下述方式执行工程：

# 不打印日志
scrapy crawl spiderName --nolog

然而，这样存在一个问题。也就是，当程序存在错误的时候，依然不会显示出来。
所以，我们推荐使用下述的方式来隐藏一些不必要的日志信息：

# 只打印错误日志
LOG_LEVEL = 'ERROR'

scrapy数据解析

和xpath语法基本一致。

scrapy持久化存储

当解析到网页内容后，我们需要进行持久化操作。

基于终端指令

只可以将parse方法的返回值存储到本地的文本文件中。

$ scrapy crawl xxx -o filePath

持久化存储对应的文本文件类型只可以为json、jsonlines、jl、csv、xml、marshal、pickle

基于管道

编码流程

数据解析

封装存储为item对象

posted @ 2022-02-18 15:50 Gazikel 阅读(52) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Spark实验1_Linux系统的安装和常用命令

· SparkStreaming

· Scrapy 入门笔记

· scrapy：快速入门

· Scrapy快速入门

阅读排行：
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· 单线程的Redis速度为什么快？
· 展开说说关于C#中ORM框架的用法！
· Pantheons：用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探

历史上的今天：
2021-02-18 Echarts概述

公告

昵称： Gazikel
园龄： 4年8个月
粉丝： 15
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

把你的脸迎向阳光，那就不会有阴影