摘要: 1、settings.py 配置链接Redis REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL(!!!!!!!!! 优先 阅读全文
posted @ 2018-06-05 18:12 nick560 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1、基本命令: 2、custom_settings custom_settings值为一个字典,定义一些配置信息,在运行爬虫程序时,这些配置会覆盖项目级别的配置。所以custom_settings必须被定义成一个类属性(放在parse之前),由于settings会在类实例化前加载,但是后来居上cus 阅读全文
posted @ 2018-06-05 17:47 nick560 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫道德的话:客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 阅读全文
posted @ 2018-06-05 12:23 nick560 阅读(4009) 评论(0) 推荐(0) 编辑
摘要: 1、spider.py # -*- coding: utf-8 -*- import scrapy from ..items import BigfileItem class ChoutiSpider(scrapy.Spider): name = "chouti" allowed_domains = 阅读全文
posted @ 2018-06-05 11:28 nick560 阅读(464) 评论(0) 推荐(0) 编辑