Scrapy 配置文件
目录
基本配置
User-Agent
客户端User-Agent请求头
USER_AGENT = 'data_update (+http://www.yourdomain.com)'
是否遵循爬虫协议
ROBOTSTXT_OBEY = True # False 不遵循
cookie
当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie
当COOKIES_ENABLED没有注释,设置为False的时候scrapy默认使用了settings里面的cookie
当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉,使用自定义cookie
也就是
如果使用自定义cookie就把COOKIES_ENABLED设置为True
如果使用settings的cookie就把COOKIES_ENABLED设置为False
COOKIES_ENABLED = False
DEFAULT_REQUEST_HEADERS 请求头
SPIDER_MIDDLEWARES = {
'data_update.middlewares.DataUpdateSpiderMiddleware': 543,
}
并发与颜值
下载器总共最大处理的并发请求数,默认值16
CONCURRENT_REQUESTS = 32
每个域名能够被执行的最大并发请求数目,默认值8
CONCURRENT_REQUESTS_PER_DOMAIN = 16
日志
可以修改配置文件 settings.py,任意位置添加下面两行,效果会清爽很多
LOG_FILE = 'runtime.log'
LOG_LEVEL = 'INFO'
Telnet 查看爬虫信息
# Telnet用于查看当前爬虫的信息,操作爬虫等...使用telnet ip port ,然后通过命令操作
# TELNETCONSOLE_ENABLED = False
# TELNETCONSOLE_HOST = '127.0.0.1'
# TELNETCONSOLE_PORT = [6023,]
telnet localhost 6023
用户名 scrapy 密码 需要在日志里面看