打赏
摘要: 分布式爬虫实现步骤: 1.安装一个scrapy-redis的组件 原生的scrapy不能实现分布式爬虫,必须要让scrapy结合scrapy-redis组件一起实现分布式爬虫。原因是因为原生的scrapy的调度器和管道不可以被分布式集群共享,不能实现集群之间整体的调度。scrapy-redis组件的 阅读全文
posted @ 2023-03-08 23:28 不像话 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 使用selenium爬取信息,可以实现浏览器自动化操作,模拟用户的各种真是操作行为。 可以实现浏览器无头(无可视化界面)访问获取页面数据,并且规避被检测风险,添加代码如下: #浏览器自动化模块 from selenium import webdriver #实现无可视化界面 from seleniu 阅读全文
posted @ 2023-03-08 11:06 不像话 阅读(176) 评论(0) 推荐(0) 编辑