摘要:
scrapy中间件 scrapy中间有两种:爬虫中间件,下载中间件 爬虫中间件:处于引擎和爬虫spider之间 下载中间件:处于引擎和下载器之间 主要对下载中间件进行处理 下载中间件 作用:批量拦截请求和响应 拦截请求 UA伪装:将所有的请求尽可能多的设定成不同的请求载体身份标识 request.h 阅读全文
摘要:
scrapy请求传参 作用:实现深度爬取 爬取多个层级对应的页面数据 使用场景:爬取的数据没有在同一张页面 在手动请求的时候传递item: yield scrapy.Request(url,callback,meta={'item':item}) 将meta这个字典传递给callback callb 阅读全文
摘要:
提高scrapy爬取效率的五个方法 提升scrapy爬取数据的效率:只要对配置文件中的配置做出相应修改即可 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。 在settings配置文件中修改 CONCURRENT_REQUESTS = 100 值为100,并发设置成了为100。 阅读全文
摘要:
Scrapy实现图片爬取 1.在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道 在管道文件对图片进行下载和持久化存储 class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start 阅读全文
摘要:
Scrapy实现多页数据爬取 1.先指定通用模板 url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板 pageNum = 1 2.对parse方法递归处理 parse第一次调用表示的是用来解析第一页对应页面中的数据 对后面的页码的数据 阅读全文
摘要:
Scrapy概述 框架:scrapy,pyspider 就是一个集成了各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板. 我们只需要学习框架中封装好的相关功能的使用即可. scrapy集成了哪些功能: 高性能的数据解析操作,持久化存储操作,高性能的数据下载的操作..... 环境 阅读全文
摘要:
中国空气质量在线检测平台数据爬取 平台网站:https://www.aqistudy.cn/html/city_detail.html 1.获取综合版块对应的数据: 将当前页面的搜索条件进行修改后,点击搜索按钮, 才可以通过抓包工具捕获到ajax请求的数据包, 数据包中提取出的ajax请求的url是 阅读全文
摘要:
requests模块和urllib模块爬取图片 requests模块 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik 阅读全文
摘要:
selenium 概念:基于浏览器自动化的一个模块. selenium和爬虫之间的关联是什么? 便捷的获取页面中动态加载的数据 requests模块进行数据爬取:可见非可得 selenium:可见即可得 主要用于爬取动态加载的数据,直接用selenium就可以获取 注意点:selenium完全对浏览 阅读全文
摘要:
基于单线程+多任务异步协程实现异步爬取 使用asyncio加上aiohttp 协程对象 协程:对象,可以把协程当做是一个特殊的函数,如果一个函数的定义被async关键字所修饰,该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象。 from time import sleep 阅读全文
摘要:
基于线程池实现异步爬取dummy 使用multiprocessing.dummy中的Pool池 # 先构建要访问url的列表 import requests url = 'https://www.qiushibaike.com/text/page/%d/' urls = [] for page in 阅读全文
摘要:
requests模块使用 requests: get/post: url data/params:对请求参数的封装 headers:UA伪装 proxies:代理,字典形式{'代理类型':'代理ip,port'} 动态加载的数据: 由另一个额外的请求请求到的数据 ajax js 如何鉴定页面中是否有 阅读全文
摘要:
requests模块数据解析 数据解析最根本的作用:定位到某个标签,并获取该标签的文本或者属性 解析:根据指定的规则对数据进行提取 作用:实现聚焦爬虫 聚焦爬虫的编码流程: 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析的方式: 正则 bs4 xpath 通用原理: 1.标签定位 阅读全文
摘要:
移动端爬取数据的流程 1.基于一款抓包工具 fiddler(使用) 青花瓷 miteproxy 2.对fiddler进行配置 允许远程移动端进行连接 tools->options->connection->allow remote ... 允许抓取https请求,安装证书 3.证书下载 PC端:ht 阅读全文
摘要:
python模拟数据结构模型 模拟栈 Stack() 创建一个空的新栈。 它不需要参数,并返回一个空栈。 push(item)将一个新项添加到栈的顶部。它需要 item 做参数并不返回任何内容。 pop() 从栈中删除顶部项。它不需要参数并返回 item 。栈被修改。 peek() 从栈返回顶部项, 阅读全文
摘要:
timeit模块 用途:用来测试一段python代码的执行速度 Timer类 该类是timeit模块中专门用于测量python代码的执行速度/时长的。 from timeit import Timer Timer(stmt='pass',setup='pass') ('test01()',setup 阅读全文