Elasticsearch
摘要:Elasticsearch Elasticsearch 是一个基于 Apache Lucene 构建的开源搜索引擎。它提供了一个分布式、多用户能里的全文搜索引擎,基于 RESTful Web 接口。 Kibana Kibana 是一个开源的数据可视化平台,通常与 Elasticsearch
阅读全文
Scrapy——Selenium
摘要:Scrapy——Selenium 首先,我需要对Scrapy框架的爬虫文件中一些属性与方法再做进一步的解释。 # 以下代码是scrapy框架中的爬虫文件 import scrapy class NewsSpider(scrapy.Spider): name = "news" allowed_doma
阅读全文
Scrapy详解
摘要:Scrapy 分布式爬虫 1、yield关键词 主要用途: 异步处理:Scrapy是基于Twisted框架构建的,Twisted是一个时间驱动的网络框架,它允许Scrapy进行非阻塞操作。使用yield可以暂停当前的爬虫处理,等待某些异步操作完成后再继续执行。 延迟处理:当你需要处理大量数据或者需要
阅读全文