Scrapy 配置文件

基本配置

User-Agent

客户端User-Agent请求头

USER_AGENT = 'data_update (+http://www.yourdomain.com)'

是否遵循爬虫协议

ROBOTSTXT_OBEY = True  # False 不遵循

当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie

当COOKIES_ENABLED没有注释,设置为False的时候scrapy默认使用了settings里面的cookie

当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉,使用自定义cookie

也就是

如果使用自定义cookie就把COOKIES_ENABLED设置为True

如果使用settings的cookie就把COOKIES_ENABLED设置为False

COOKIES_ENABLED = False

DEFAULT_REQUEST_HEADERS 请求头

SPIDER_MIDDLEWARES = {
    'data_update.middlewares.DataUpdateSpiderMiddleware': 543,
}

并发与颜值

下载器总共最大处理的并发请求数,默认值16

CONCURRENT_REQUESTS = 32

每个域名能够被执行的最大并发请求数目,默认值8

CONCURRENT_REQUESTS_PER_DOMAIN = 16

日志

可以修改配置文件 settings.py,任意位置添加下面两行,效果会清爽很多

LOG_FILE = 'runtime.log'
LOG_LEVEL = 'INFO'

Telnet 查看爬虫信息

# Telnet用于查看当前爬虫的信息,操作爬虫等...使用telnet ip port ,然后通过命令操作
# TELNETCONSOLE_ENABLED = False
# TELNETCONSOLE_HOST = '127.0.0.1'
# TELNETCONSOLE_PORT = [6023,]

telnet localhost 6023
用户名 scrapy 密码 需要在日志里面看
 posted on 2021-06-08 12:07  Rannie`  阅读(136)  评论(0编辑  收藏  举报
去除动画
找回动画