初识scrapy框架（八）------ 配置settings

基本的配置如下：

　　BOT_NAME

　　　　默认: 'scrapybot'

　　　　当您使用 startproject 命令创建项目时其也被自动赋值。

　　CONCURRENT_ITEMS

　　　　默认: 100

　　　　Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。

　　CONCURRENT_REQUESTS

　　　　默认: 16

　　　　Scrapy downloader 并发请求(concurrent requests)的最大值。

　　LOG_ENABLED

　　　　默认: True

　　　　是否启用logging。

　　DEFAULT_REQUEST_HEADERS

　　　　默认：

1 #DEFAULT_REQUEST_HEADERS = {
2 #   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
3 #   'Accept-Language': 'en',
4 #}

　　LOG_ENCODING

　　　　默认: 'utf-8'

　　　　logging使用的编码。

　　LOG_LEVEL

　　　　默认: 'DEBUG'

　　　　log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

　　USER_AGENT

　　　　默认: "Scrapy/VERSION (+http://scrapy.org)"

　　　　爬取的默认User-Agent，除非被覆盖。settings里的USER_AGENT等级最低，从小到大依次是：

　　　　　　settings-->spider爬虫请求-->下载中间件里

　　COOKIES_ENABLED = False

　　　　禁用Cookies

　　　　PROXIES：代理设置

　　　　示例：

　　　　PROXIES = [
　　　　{'ip_port': '111.11.228.75:80', 'password': ''},
　　　　{'ip_port': '120.198.243.22:80', 'password': ''},
　　　　{'ip_port': '111.8.60.9:8123', 'password': ''},
　　　　{'ip_port': '101.71.27.120:80', 'password': ''},
　　　　{'ip_port': '122.96.59.104:80', 'password': ''},
　　　　{'ip_port': '122.224.249.122:8088', 'password':''},
　　　　]

更多设置参考scrapy中文文档。

配置下载中间件、管道等前面已经涉及，只需要取消注释，添加就可以了。

posted @ 2018-05-18 11:17 巴蜀秀才阅读(194) 评论(0) 编辑收藏举报

刷新页面返回顶部

巴蜀秀才

初识scrapy框架（八）------ 配置settings

公告