2020 年 5月 12 日随笔档案 - Norni

2020年5月12日

摘要： Scrapy设置（settings）提供了定制Scrapy组件的方法，可以控制包括核心(core)，插件(extension)，pipeline以及spider组件。官方文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.h 阅读全文

posted @ 2020-05-12 16:33 Norni 阅读(151) 评论(0) 推荐(0) 编辑

十、scrapy中的Downloader Middlewares

摘要： 1、通常防止爬虫被反主要有以下几个策略（1）动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）（2）禁用Cookies（即不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）（通过COOK 阅读全文

posted @ 2020-05-12 16:06 Norni 阅读(705) 评论(0) 推荐(0) 编辑

九、在Scrapy中模拟登陆

摘要：使用FormRequest.from_response()方法模拟用户登录官方参考文档：https://docs.pythontab.com/scrapy/scrapy0.24/topics/request-response.html#topics-request-response-ref-req 阅读全文

posted @ 2020-05-12 14:22 Norni 阅读(278) 评论(0) 推荐(0) 编辑

八、在scrapy中发送POST请求

摘要： 1、可以使用`yield scrapy.FormRequest(url,formdata,callback)`方法发送POST请求。其中构造参数formdata可以是字典，也可以是可迭代的（key,value）元组，代表着需要提交的表单数据。 2、如果希望程序执行一开始就发送POST请求，可以重写阅读全文

posted @ 2020-05-12 14:12 Norni 阅读(431) 评论(0) 推荐(0) 编辑

七、Logging

摘要： Scrapy提供了log功能，可以通过logging模块使用 1、在settings.py配置Logging ``` # 添加如下代码 LOG_FILE = "xxxSpider.log" LOG_LEVEL="INFO" ``` （1）`LOG_ENABLED`：默认：True，启用logging 阅读全文

posted @ 2020-05-12 12:02 Norni 阅读(221) 评论(0) 推荐(0) 编辑

六、CrawlSpiders

摘要： 1、简介通过命令可以快速创建CrawlSpider模板：`scrapy genspider -t crawl tencent tencent.com` `scrapy.spiders.CrawlSpider`，它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页阅读全文

posted @ 2020-05-12 11:46 Norni 阅读(135) 评论(0) 推荐(0) 编辑

公告