摘要:
知乎登陆验证码问题比较棘手,所以我们可以考虑通过cookie来模拟登陆。 思路: 1、通过浏览器手动登陆知乎,利用抓包工具(如Fiddler等)来获取登陆后的cookie信息,并将其处理成dict类型。 2、然后使用requests的会话(Session)对象来携带cookie信息发送请求,因为同一 阅读全文
摘要:
我们将之前的阳光热线问政平台爬虫案例,改写成Scrapy-redis分布式爬虫 1.items.py import scrapy class MyprojectItem(scrapy.Item): number = scrapy.Field() #帖子编号 title = scrapy.Field( 阅读全文
摘要:
Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 一、Scrapy-Redis分布式策略: Master端(核心服务器):搭建一个Redis数据库,并开启redis-server 阅读全文