上一页 1 ··· 58 59 60 61 62 63 64 65 66 ··· 106 下一页
摘要: scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处 阅读全文
posted @ 2019-01-11 19:42 小学弟- 阅读(397) 评论(0) 推荐(0) 编辑
摘要: scrapy框架持久化存储 基于终端指令的持久化存储 基于管道的持久化存储 1.基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 执行输出指定格式进行存储:将爬取到的数据写入不同格 阅读全文
posted @ 2019-01-11 19:38 小学弟- 阅读(152) 评论(0) 推荐(0) 编辑
摘要: <!--done--> scrapy框架中item pipeline用法 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继 阅读全文
posted @ 2019-01-10 20:11 小学弟- 阅读(1331) 评论(0) 推荐(0) 编辑
摘要: scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据 总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设置回调函数,当该request下载完毕并返回时,将生成resp 阅读全文
posted @ 2019-01-10 19:49 小学弟- 阅读(343) 评论(0) 推荐(0) 编辑
摘要: scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定 阅读全文
posted @ 2019-01-10 17:19 小学弟- 阅读(226) 评论(0) 推荐(0) 编辑
摘要: scrapy框架的命令解释 创建爬虫项目 scrapy startproject 项目名例子如下: scrapy startproject test1 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: |____scrapy.cfg |____test1 | |______init__.py 阅读全文
posted @ 2019-01-10 17:01 小学弟- 阅读(192) 评论(0) 推荐(0) 编辑
摘要: <!--done--> 爬虫信息相关 这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和代码如下: import requests ur 阅读全文
posted @ 2019-01-10 16:29 小学弟- 阅读(191) 评论(0) 推荐(0) 编辑
摘要: <!--done--> PyQuery库的使用 PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择 PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用 阅读全文
posted @ 2019-01-10 16:25 小学弟- 阅读(212) 评论(0) 推荐(0) 编辑
摘要: beautifulsoup库的使用 beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 快速使用 通过下面的一个例子,对bs4 阅读全文
posted @ 2019-01-10 16:22 小学弟- 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 爬虫正则的基本使用 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python 阅读全文
posted @ 2019-01-10 16:16 小学弟- 阅读(224) 评论(0) 推荐(0) 编辑
上一页 1 ··· 58 59 60 61 62 63 64 65 66 ··· 106 下一页