初识scrapy框架(八)------ 配置settings
基本的配置如下:
BOT_NAME
默认: 'scrapybot'
当您使用 startproject 命令创建项目时其也被自动赋值。
CONCURRENT_ITEMS
默认: 100
Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。
CONCURRENT_REQUESTS
默认: 16
Scrapy downloader 并发请求(concurrent requests)的最大值。
LOG_ENABLED
默认: True
是否启用logging。
DEFAULT_REQUEST_HEADERS
默认:
1 #DEFAULT_REQUEST_HEADERS = { 2 # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 3 # 'Accept-Language': 'en', 4 #}
LOG_ENCODING
默认: 'utf-8'
logging使用的编码。
LOG_LEVEL
默认: 'DEBUG'
log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
默认: "Scrapy/VERSION (+http://scrapy.org)"
爬取的默认User-Agent,除非被覆盖。settings里的USER_AGENT等级最低,从小到大依次是:
settings-->spider爬虫请求-->下载中间件里
COOKIES_ENABLED = False
禁用Cookies
PROXIES: 代理设置
示例:
PROXIES = [
{'ip_port': '111.11.228.75:80', 'password': ''},
{'ip_port': '120.198.243.22:80', 'password': ''},
{'ip_port': '111.8.60.9:8123', 'password': ''},
{'ip_port': '101.71.27.120:80', 'password': ''},
{'ip_port': '122.96.59.104:80', 'password': ''},
{'ip_port': '122.224.249.122:8088', 'password':''},
]
更多设置参考scrapy中文文档。
配置下载中间件、管道等前面已经涉及,只需要取消注释,添加就可以了。