2021 年 5月 12 日随笔档案 - eliwang

2021年5月12日

摘要：知乎登陆验证码问题比较棘手，所以我们可以考虑通过cookie来模拟登陆。思路： 1、通过浏览器手动登陆知乎，利用抓包工具（如Fiddler等）来获取登陆后的cookie信息，并将其处理成dict类型。 2、然后使用requests的会话（Session）对象来携带cookie信息发送请求，因为同一阅读全文

posted @ 2021-05-12 21:15 eliwang 阅读(240) 评论(0) 推荐(0) 编辑

scrapy-Redis分布式爬虫案例----阳光问政平台爬虫

摘要：我们将之前的阳光热线问政平台爬虫案例，改写成Scrapy-redis分布式爬虫 1.items.py import scrapy class MyprojectItem(scrapy.Item): number = scrapy.Field() #帖子编号 title = scrapy.Field( 阅读全文

posted @ 2021-05-12 01:07 eliwang 阅读(281) 评论(0) 推荐(0) 编辑

scrapy-redis分布式爬虫

摘要： Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。一、Scrapy-Redis分布式策略： Master端(核心服务器)：搭建一个Redis数据库，并开启redis-server 阅读全文

posted @ 2021-05-12 00:26 eliwang 阅读(397) 评论(0) 推荐(0) 编辑

eliwang

学无止境的小渣渣

公告