scrapy 常用命令
startproject 创建一个新的工程 scrapy startproject <name>[dir]
genspider 创建一个爬虫 scrapy genspider [options]<name><domain>
settings 获得爬虫的配置信息scrapy settings [options]
crawl 运行一个爬虫 scrapy crawl <spider>
list 列出工程中所有爬虫 scrapy list
shell 启动URL调试命令行 scrapy shell[url]
一个工程是一个最大的单元,一个project 中 ,可以有多可 spider模块
命令行逻辑
修改后的spider
# -*- coding: utf-8 -*-
import scrapy
# 这里有继承关系,scrapy.Spider
class DemoSpider(scrapy.Spider):
name = "demo"
#allowed_domains = ["python123.io"]
start_urls = ['http://python123.io/ws/demo.html']
#面向对象中类所属方法的标记
def parse(self, response):
fname=response.url.split('/')[-1]
with open(fname,"wb") as f:
f.write(response.body)
self.log("Saved file %s."%fname)
def parse 中是解析网站内容的解析方法
url_strat 启动的时候初始的页面
start_requests(self):
这个作为一个生成器,对他的调用每次返回一个url连接
爬虫的使用步骤
1.创建一个工程与spider 模板
2. 编写Spider
3.编写Item Pipeline
4.优化配置策略
基本类
Request 表示一个Request // 一个http请求
由spider 生成 由download 执行
有几个属性或方法
.url
.method GET POST
.headers 字典类型的请求头
.body 请求内容的啊主题
.meta 用户添加的信息为,再scrapy内部中使用
.copy() 复制该请求
Response
.url 返回信息关联的url
.statys 表示返回状态吗
.header response 对应的头部信息
.body response 对应的内容信息
.flags 对应的标记
.request 对应的request 方法
.copy() 复制该响应
Item
由Spider 生成 ,由
类字典类型,可以按照字典类型使用
风转正字典键值对
支持多种HTML 提取方法
Beatutiful Soup
lxml
re
XPath Seletor
css Seletor
<HTML>.css("a::attr(hred)").extract()
标签名称 标签属性
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET制作智能桌面机器人:结合BotSharp智能体框架开发语音交互
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· 《HelloGitHub》第 108 期
· MQ 如何保证数据一致性?
· 一个基于 .NET 开源免费的异地组网和内网穿透工具