摘要: class scrapy.http.Request(url[, callback, method="GET", headers, body, cookies, meta, encoding='utf8', priority=0, dont_filter=Falese, errback])) 参数详解 阅读全文
posted @ 2019-10-17 17:51 眼镜儿 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 管道接收怕从爬取到的item, 并对item进行过滤, 去重, 清洗等工作, 然后对item进行持久化存储 去重管道: 如果图片名称相同, 我们就认为图片重复, 删除该项目 # 将数据存储到csv文件中 # 过滤, 删除掉与游戏相关的新闻内容 # 加工性管道: # 存储型管道 阅读全文
posted @ 2019-10-17 17:27 眼镜儿 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 概述: Spider定义如何爬取某个网站, 包括爬取的动作, 以及如何从网页的内容中提取结构化数据. # -*- coding: utf-8 -*- import scrapy from tutorial.items import QuoteItem class QuotesSpider(scrap 阅读全文
posted @ 2019-10-17 16:52 眼镜儿 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 来自官网的诠释: 爬取的主要目标就是从非结构性的数据源中提取结构性数据, 如网页. Scrapy提供Item类来满足这样的需求. Item对象是一种简单的容器, 保存了爬取到的数据, 其提供了类似于词典的API, 以及用于声明可用字段的简单语法 Item是一种数据容器, 是作为蜘蛛与管道之间的数据载 阅读全文
posted @ 2019-10-17 16:51 眼镜儿 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 1. 创建项目 创建项目 scrapy startproject tutorial 创建spider cd tutorial scrapy genspider quotes quotes.toscrape.com 创建item class QuoteItem(scrapy.Item): text = 阅读全文
posted @ 2019-10-17 16:49 眼镜儿 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 1. 架构介绍 engine: 引擎, 处理整个系统的数据流处理, 触发事务, 是整个框架的核心 Item: 项目, 它定义了爬取结果的数据结构, 爬取的数据会被赋值成Item对象 Scheduler: 调度器, 接受引擎发过来的请求并将其加入队列中, 在引擎再次请求的时候将请求提供给引擎 Down 阅读全文
posted @ 2019-10-17 16:38 眼镜儿 阅读(130) 评论(0) 推荐(0) 编辑
摘要: seleinum中的方法汇总: 提供键盘支持 填写表格 拖放 在不同窗口和框架之间移动 弹出对话框: 访问浏览器历史记录 操作cookie 等待页面加载完成 常用actionchains click(on_element=None) : on_element : the element to be 阅读全文
posted @ 2019-10-17 09:38 眼镜儿 阅读(174) 评论(0) 推荐(0) 编辑