摘要: scrapy中间件 1. 中间件 1.1 什么是中间件 如果有学过django的同学,应该对这个名词不陌生了,在django中,中间件可以对请求做统一批量的处理 那么在爬虫中,中间件的作用也是做批量处理的,比如把所有请求的请求头添加一个值等等等。 由于爬虫是一个发请求,获取响应的过程,所以在scra 阅读全文
posted @ 2020-07-06 22:56 Mn猿 阅读(285) 评论(0) 推荐(1) 编辑
摘要: scrapy数据持久化 爬取到的数据想要进行保存的话, 首先要对数据进行格式化话,这样数据格式统一才方便进行保存 1. 数据格式化 1.1 item.py 在我们创建的爬虫项目中item.py这个文件就是负责进行格式化数据的 # -*- coding: utf-8 -*- # Define here 阅读全文
posted @ 2020-07-06 22:42 Mn猿 阅读(178) 评论(0) 推荐(1) 编辑
摘要: scrapy过滤器 1. 过滤器 当我们在爬取网页的时候可能会遇到一个调转连接会在不同页面出现,这个时候如果我们的爬虫程序不能识别出 该链接是已经爬取过的话,就会造成一种重复不必要的爬取。所以我们要对我们即将要爬取的网页进行过滤,把重 复的网页链接过滤掉。 2. 指纹过滤器 去重处理可以避免将重复性 阅读全文
posted @ 2020-07-06 22:41 Mn猿 阅读(891) 评论(4) 推荐(0) 编辑
摘要: scrapy.Spider 这一节我们来聊一聊爬虫文件 1. 请求发送 # -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.c 阅读全文
posted @ 2020-07-06 22:38 Mn猿 阅读(324) 评论(0) 推荐(0) 编辑
摘要: scrapy框架结构 1. 项目结构 1.1 认识文件 这里我们简单认识一下, 在一个scrapy爬虫项目中各个文件都是用来做什么的, 知道了这些文件是干嘛的, 那么我们来写我们的项目就会很得心应手了. 这次我们还以上次百度的那个项目为例 spider1 | |——spider1 | ├─spide 阅读全文
posted @ 2020-07-06 22:34 Mn猿 阅读(212) 评论(0) 推荐(0) 编辑
摘要: scrapy 简介&安装 初识 scrapy Scrapy是一个使用Python语言(基于Twisted(推四体的)框架,内部也就是异步非阻塞io源码)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃,并且是跨平台的。在Linux、 M 阅读全文
posted @ 2020-07-06 22:33 Mn猿 阅读(265) 评论(1) 推荐(0) 编辑
摘要: 第一个scrapy项目 1. 创建scrapy项目 1.1 创建项目三剑客 这里的三剑客指的是:创建项目以及运行项目的三条命令 1.1.1 创建项目 scrapy stratproject 项目名称 (base) D:\project\爬虫高性能相关>scrapy startproject spid 阅读全文
posted @ 2020-07-06 22:31 Mn猿 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 百度地图API调用 这次主要用到的是地理编码服务 1. 什么是地理编码服务 1.1 介绍 地理编码服务(又名Geocoder)是一类Web API接口服务; 地理编码服务提供将结构化地址数据(如:北京市海淀区上地十街十号)转换为对应坐标点(经纬度)功能; 地理编码服务当前未推出国际化服务,解析地址仅 阅读全文
posted @ 2020-06-13 16:54 Mn猿 阅读(2438) 评论(1) 推荐(3) 编辑
摘要: 常用快捷键 快捷键 功能 alt + enter 按名称导入模块 Ctrl + R 替换 Ctrl + Q 快速查看文档 Ctrl + F1 显示错误描述或警告信息 Ctrl + / 行注释(可选中多行) Ctrl + Alt + L 代码格式化 Ctrl + Alt + O 自动导入 Ctrl + 阅读全文
posted @ 2020-05-24 16:21 Mn猿 阅读(934) 评论(0) 推荐(2) 编辑
摘要: python之CSV模块 csv文件 0. csv文件介绍 csv文件格式是一种通用的电子表格和数据库导入导出格式。最近我调用RPC处理服务器数据时,经常需要将数据做个存档便使用了这一方便的格式。 python中有一个读写csv文件的包,直接import csv即可。利用这个python包可以很方便 阅读全文
posted @ 2020-05-23 16:40 Mn猿 阅读(503) 评论(0) 推荐(1) 编辑