基本配置
并发与颜值
- 下载器总共最大处理的并发请求数，默认值16
- 每个域名能够被执行的最大并发请求数目，默认值8
日志
Telnet 查看爬虫信息

基本配置

User-Agent

客户端User-Agent请求头

USER_AGENT = 'data_update (+http://www.yourdomain.com)'

是否遵循爬虫协议

ROBOTSTXT_OBEY = True  # False 不遵循

当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie

当COOKIES_ENABLED没有注释，设置为False的时候scrapy默认使用了settings里面的cookie

当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉，使用自定义cookie

也就是

如果使用自定义cookie就把COOKIES_ENABLED设置为True

如果使用settings的cookie就把COOKIES_ENABLED设置为False

COOKIES_ENABLED = False

DEFAULT_REQUEST_HEADERS 请求头

SPIDER_MIDDLEWARES = {
    'data_update.middlewares.DataUpdateSpiderMiddleware': 543,
}

并发与颜值

下载器总共最大处理的并发请求数，默认值16

CONCURRENT_REQUESTS = 32

每个域名能够被执行的最大并发请求数目，默认值8

CONCURRENT_REQUESTS_PER_DOMAIN = 16

日志

可以修改配置文件 settings.py，任意位置添加下面两行，效果会清爽很多

LOG_FILE = 'runtime.log'
LOG_LEVEL = 'INFO'

Telnet 查看爬虫信息

# Telnet用于查看当前爬虫的信息，操作爬虫等...使用telnet ip port ，然后通过命令操作
# TELNETCONSOLE_ENABLED = False
# TELNETCONSOLE_HOST = '127.0.0.1'
# TELNETCONSOLE_PORT = [6023,]

telnet localhost 6023
用户名 scrapy 密码 需要在日志里面看

posted on 2021-06-08 12:07 Rannie` 阅读(166) 评论(0) 收藏举报

刷新页面返回顶部