摘要:
来自官网的诠释: 爬取的主要目标就是从非结构性的数据源中提取结构性数据, 如网页. Scrapy提供Item类来满足这样的需求. Item对象是一种简单的容器, 保存了爬取到的数据, 其提供了类似于词典的API, 以及用于声明可用字段的简单语法 Item是一种数据容器, 是作为蜘蛛与管道之间的数据载 阅读全文
摘要:
1. 创建项目 创建项目 scrapy startproject tutorial 创建spider cd tutorial scrapy genspider quotes quotes.toscrape.com 创建item class QuoteItem(scrapy.Item): text = 阅读全文
摘要:
1. 架构介绍 engine: 引擎, 处理整个系统的数据流处理, 触发事务, 是整个框架的核心 Item: 项目, 它定义了爬取结果的数据结构, 爬取的数据会被赋值成Item对象 Scheduler: 调度器, 接受引擎发过来的请求并将其加入队列中, 在引擎再次请求的时候将请求提供给引擎 Down 阅读全文
摘要:
seleinum中的方法汇总: 提供键盘支持 填写表格 拖放 在不同窗口和框架之间移动 弹出对话框: 访问浏览器历史记录 操作cookie 等待页面加载完成 常用actionchains click(on_element=None) : on_element : the element to be 阅读全文