scrapy settings值的含义

        self.setting = Settings({
            'BOT_NAME': settings.BOT_NAME, #scrapy的项目名字
            'SPIDER_MODULES': settings.SPIDER_MODULES,#Scrapy搜索spider的模块列表 默认: [xxx.spiders]
            'NEWSPIDER_MODULE': settings.NEWSPIDER_MODULE, #使用 genspider 命令创建新spider的模块。默认: 'xxx.spiders'
            'ROBOTSTXT_OBEY': settings.ROBOTSTXT_OBEY,#如果启用,Scrapy将会采用 robots.txt策略,常使用不遵循Flase
            'DOWNLOADER_MIDDLEWARES': settings.DOWNLOADER_MIDDLEWARES,# 启用或禁用下载器中间件
            'DUPEFILTER_CLASS': settings.DUPEFILTER_CLASS,#确保所有的爬虫通过Redis去重,使用Scrapy-Redis的去重组件,不再使用scrapy的去重组件
            'SCHEDULER': settings.SCHEDULER,#启用Redis调度存储请求队列,使用Scrapy-Redis的调度器,不再使用scrapy的调度器
            #不清除Redis队列、这样可以暂停/恢复 爬取,
            #分别按(1)请求的优先级/(2)队列FIFO/(先进先出)(3)栈FILO 取出请求(先进后出)
            'SCHEDULER_QUEUE_CLASS': settings.SCHEDULER_QUEUE_CLASS, 
            #不清除Redis队列、这样可以暂停/恢复 爬取,
            # 允许暂停,redis请求记录不会丢失(重启爬虫不会重头爬取已爬过的页面)           
             'SCHEDULER_PERSIST': settings.SCHEDULER_PERSIST,
            'REDIS_HOST': settings.REDIS_HOST, #指定连接到redis时使用的地址(可选)
            'REDIS_PORT': settings.REDIS_PORT,#指定连接到redis时使用的端口(可选)
            'REDIS_PARAMS': settings.REDIS_PARAMS,#指定连接到redis时使用的密码(可选)
            'SENTRY_DSN': settings.SENTRY_DSN,
            'TELNETCONSOLE_ENABLED': settings.TELNETCONSOLE_ENABLED,#禁用Telent控制台(默认启用)
            'EXTENSIONS': settings.EXTENSIONS,#启用或禁用扩展程序
            # 如果为True,则使用redis的'spop'进行操作。
            # 如果需要避免起始网址列表出现重复,这个选项非常有用。开启此选项urls必须通过sadd添加,否则会出现类型错误。
            'REDIS_START_URLS_AS_SET': settings.REDIS_START_URLS_AS_SET,
            'DOWNLOAD_TIMEOUT': 30,
            'LOG_LEVEL': settings.LOG_LEVEL,
            #禁用cookies,有些站点会从cookies中判断是否为爬虫
            'COOKIES_ENABLED': settings.COOKIES_ENABLED,
            # 默认 Request 并发数:16
            'CONCURRENT_REQUESTS': settings.CONCURRENT_REQUESTS
        })

https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

posted @ 2020-06-17 15:04  公众号python学习开发  阅读(170)  评论(0编辑  收藏  举报