初识scrapy框架(八)------ 配置settings

基本的配置如下:

  BOT_NAME

    默认: 'scrapybot'

    当您使用 startproject 命令创建项目时其也被自动赋值。

  CONCURRENT_ITEMS

    默认: 100

    Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。

  CONCURRENT_REQUESTS

    默认: 16

    Scrapy downloader 并发请求(concurrent requests)的最大值。

  LOG_ENABLED

    默认: True

    是否启用logging。

  DEFAULT_REQUEST_HEADERS

    默认:

1 #DEFAULT_REQUEST_HEADERS = {
2 #   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
3 #   'Accept-Language': 'en',
4 #}

  LOG_ENCODING

    默认: 'utf-8'

    logging使用的编码。

  LOG_LEVEL

    默认: 'DEBUG'

    log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

  USER_AGENT

    默认: "Scrapy/VERSION (+http://scrapy.org)"

    爬取的默认User-Agent,除非被覆盖。settings里的USER_AGENT等级最低,从小到大依次是:

      settings-->spider爬虫请求-->下载中间件里

  COOKIES_ENABLED = False

    禁用Cookies

    PROXIES: 代理设置

    示例:

    PROXIES = [
    {'ip_port': '111.11.228.75:80', 'password': ''},
    {'ip_port': '120.198.243.22:80', 'password': ''},
    {'ip_port': '111.8.60.9:8123', 'password': ''},
    {'ip_port': '101.71.27.120:80', 'password': ''},
    {'ip_port': '122.96.59.104:80', 'password': ''},
    {'ip_port': '122.224.249.122:8088', 'password':''},
    ]

更多设置参考scrapy中文文档

配置下载中间件、管道等前面已经涉及,只需要取消注释,添加就可以了。

 

posted @ 2018-05-18 11:17  巴蜀秀才  阅读(194)  评论(0编辑  收藏  举报