摘要: Scrapy设置(settings)提供了定制Scrapy组件的方法,可以控制包括核心(core),插件(extension),pipeline以及spider组件。 官方文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.h 阅读全文
posted @ 2020-05-12 16:33 Norni 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1、通常防止爬虫被反主要有以下几个策略 (1)动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) (2)禁用Cookies(即不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)(通过COOK 阅读全文
posted @ 2020-05-12 16:06 Norni 阅读(705) 评论(0) 推荐(0) 编辑
摘要: 使用FormRequest.from_response()方法模拟用户登录 官方参考文档:https://docs.pythontab.com/scrapy/scrapy0.24/topics/request-response.html#topics-request-response-ref-req 阅读全文
posted @ 2020-05-12 14:22 Norni 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 1、可以使用`yield scrapy.FormRequest(url,formdata,callback)`方法发送POST请求。 其中构造参数formdata可以是字典,也可以是可迭代的(key,value)元组,代表着需要提交的表单数据。 2、如果希望程序执行一开始就发送POST请求,可以重写 阅读全文
posted @ 2020-05-12 14:12 Norni 阅读(431) 评论(0) 推荐(0) 编辑
摘要: Scrapy提供了log功能,可以通过logging模块使用 1、在settings.py配置Logging ``` # 添加如下代码 LOG_FILE = "xxxSpider.log" LOG_LEVEL="INFO" ``` (1)`LOG_ENABLED`:默认:True,启用logging 阅读全文
posted @ 2020-05-12 12:02 Norni 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1、简介 通过命令可以快速创建CrawlSpider模板:`scrapy genspider -t crawl tencent tencent.com` `scrapy.spiders.CrawlSpider`,它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页 阅读全文
posted @ 2020-05-12 11:46 Norni 阅读(135) 评论(0) 推荐(0) 编辑