摘要:
官方文档:https://docs.scrapy.org/en/latest/topics/spiders.html# 一句话总结:spider是定义爬取的动作(是否跟进新的链接)及分析网页结构(提取数据,返回item)的地方。 一 scrapy.Spider 1 name 2 allowed_do 阅读全文
摘要:
练习url:https://doc.scrapy.org/en/latest/_static/selectors-sample1.html 一 获取文本值 xpath css 注:可以省略写成:response.xpath() 二 获取属性值 xpath css 注: 可以省略写成:response 阅读全文
摘要:
一 简介 Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。 官方文档 :https://docs.scrapy.org/en/latest/topics/architecture.html 最重要的是理解 Data flow。 别人的 阅读全文