摘要: <!--done--> scrapy框架中item pipeline用法 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继 阅读全文
posted @ 2019-01-10 20:11 小学弟- 阅读(1328) 评论(0) 推荐(0) 编辑
摘要: scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据 总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设置回调函数,当该request下载完毕并返回时,将生成resp 阅读全文
posted @ 2019-01-10 19:49 小学弟- 阅读(343) 评论(0) 推荐(0) 编辑
摘要: scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定 阅读全文
posted @ 2019-01-10 17:19 小学弟- 阅读(226) 评论(0) 推荐(0) 编辑
摘要: scrapy框架的命令解释 创建爬虫项目 scrapy startproject 项目名例子如下: scrapy startproject test1 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: |____scrapy.cfg |____test1 | |______init__.py 阅读全文
posted @ 2019-01-10 17:01 小学弟- 阅读(191) 评论(0) 推荐(0) 编辑
摘要: <!--done--> 爬虫信息相关 这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和代码如下: import requests ur 阅读全文
posted @ 2019-01-10 16:29 小学弟- 阅读(191) 评论(0) 推荐(0) 编辑
摘要: <!--done--> PyQuery库的使用 PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择 PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用 阅读全文
posted @ 2019-01-10 16:25 小学弟- 阅读(212) 评论(0) 推荐(0) 编辑
摘要: beautifulsoup库的使用 beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 快速使用 通过下面的一个例子,对bs4 阅读全文
posted @ 2019-01-10 16:22 小学弟- 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 爬虫正则的基本使用 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python 阅读全文
posted @ 2019-01-10 16:16 小学弟- 阅读(224) 评论(0) 推荐(0) 编辑
摘要: urllib库的使用 官方文档地址:https://docs.python.org/3/library/urllib.html 什么是urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.pa 阅读全文
posted @ 2019-01-10 16:12 小学弟- 阅读(391) 评论(0) 推荐(0) 编辑
摘要: scrapy框架简介个基础应用 简介 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。 所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 对于框架的学习,重点是要学习其 阅读全文
posted @ 2019-01-10 16:00 小学弟- 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。 Selenium的核心Selenium Core基于JsUni 阅读全文
posted @ 2019-01-10 15:35 小学弟- 阅读(248) 评论(0) 推荐(0) 编辑