2020 年 6月 9 日随笔档案 - Hedger_Lee

2020年6月9日

摘要： scrapy中间件 scrapy中间有两种：爬虫中间件，下载中间件爬虫中间件：处于引擎和爬虫spider之间下载中间件：处于引擎和下载器之间主要对下载中间件进行处理下载中间件作用：批量拦截请求和响应拦截请求 UA伪装：将所有的请求尽可能多的设定成不同的请求载体身份标识 request.h 阅读全文

posted @ 2020-06-09 17:49 Hedger_Lee 阅读(324) 评论(0) 推荐(0) 编辑

scrapy请求传参

摘要： scrapy请求传参作用：实现深度爬取爬取多个层级对应的页面数据使用场景：爬取的数据没有在同一张页面在手动请求的时候传递item： yield scrapy.Request(url,callback,meta={'item':item}) 将meta这个字典传递给callback callb 阅读全文

posted @ 2020-06-09 17:19 Hedger_Lee 阅读(297) 评论(0) 推荐(0) 编辑

提高scrapy爬取效率的五个方法

摘要：提高scrapy爬取效率的五个方法提升scrapy爬取数据的效率：只要对配置文件中的配置做出相应修改即可增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改 CONCURRENT_REQUESTS = 100 值为100,并发设置成了为100。阅读全文

posted @ 2020-06-09 14:49 Hedger_Lee 阅读(533) 评论(0) 推荐(0) 编辑

Scrapy实现图片爬取

摘要： Scrapy实现图片爬取 1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道在管道文件对图片进行下载和持久化存储 class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start 阅读全文

posted @ 2020-06-09 14:45 Hedger_Lee 阅读(154) 评论(0) 推荐(0) 编辑

Scrapy实现多页数据爬取

摘要： Scrapy实现多页数据爬取 1.先指定通用模板 url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板 pageNum = 1 2.对parse方法递归处理 parse第一次调用表示的是用来解析第一页对应页面中的数据对后面的页码的数据阅读全文

posted @ 2020-06-09 14:36 Hedger_Lee 阅读(562) 评论(0) 推荐(0) 编辑

Scrapy使用

摘要： Scrapy概述框架：scrapy，pyspider 就是一个集成了各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板. 我们只需要学习框架中封装好的相关功能的使用即可. scrapy集成了哪些功能: 高性能的数据解析操作,持久化存储操作,高性能的数据下载的操作..... 环境阅读全文

posted @ 2020-06-09 14:29 Hedger_Lee 阅读(147) 评论(0) 推荐(0) 编辑

中国空气质量在线检测平台数据爬取

摘要：中国空气质量在线检测平台数据爬取平台网站：https://www.aqistudy.cn/html/city_detail.html 1.获取综合版块对应的数据：将当前页面的搜索条件进行修改后，点击搜索按钮，才可以通过抓包工具捕获到ajax请求的数据包，数据包中提取出的ajax请求的url是阅读全文

posted @ 2020-06-09 12:19 Hedger_Lee 阅读(1008) 评论(0) 推荐(0) 编辑

requests模块和urllib模块爬取图片

摘要： requests模块和urllib模块爬取图片 requests模块 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik 阅读全文

posted @ 2020-06-09 12:18 Hedger_Lee 阅读(150) 评论(0) 推荐(0) 编辑

selenium

摘要： selenium 概念：基于浏览器自动化的一个模块. selenium和爬虫之间的关联是什么? 便捷的获取页面中动态加载的数据 requests模块进行数据爬取:可见非可得 selenium:可见即可得主要用于爬取动态加载的数据，直接用selenium就可以获取注意点：selenium完全对浏览阅读全文

posted @ 2020-06-09 12:16 Hedger_Lee 阅读(157) 评论(0) 推荐(0) 编辑

基于单线程+多任务异步协程实现异步爬取

摘要：基于单线程+多任务异步协程实现异步爬取使用asyncio加上aiohttp 协程对象协程：对象，可以把协程当做是一个特殊的函数，如果一个函数的定义被async关键字所修饰，该特殊的函数被调用后函数内部的程序语句不会被立即执行，而是会返回一个协程对象。 from time import sleep 阅读全文

posted @ 2020-06-09 12:13 Hedger_Lee 阅读(188) 评论(0) 推荐(0) 编辑

基于线程池实现异步爬取dummy

摘要：基于线程池实现异步爬取dummy 使用multiprocessing.dummy中的Pool池 # 先构建要访问url的列表 import requests url = 'https://www.qiushibaike.com/text/page/%d/' urls = [] for page in 阅读全文

posted @ 2020-06-09 12:10 Hedger_Lee 阅读(123) 评论(0) 推荐(0) 编辑

requests模块基本使用

摘要： requests模块使用 requests: get/post: url data/params:对请求参数的封装 headers:UA伪装 proxies：代理，字典形式{'代理类型':'代理ip,port'} 动态加载的数据: 由另一个额外的请求请求到的数据 ajax js 如何鉴定页面中是否有阅读全文

posted @ 2020-06-09 12:09 Hedger_Lee 阅读(164) 评论(0) 推荐(0) 编辑

requests模块-数据解析

摘要： requests模块数据解析数据解析最根本的作用：定位到某个标签，并获取该标签的文本或者属性解析：根据指定的规则对数据进行提取作用：实现聚焦爬虫聚焦爬虫的编码流程: 指定url 发起请求获取响应数据数据解析持久化存储数据解析的方式: 正则 bs4 xpath 通用原理: 1.标签定位阅读全文

posted @ 2020-06-09 11:55 Hedger_Lee 阅读(365) 评论(0) 推荐(0) 编辑

移动端爬取数据的流程

摘要：移动端爬取数据的流程 1.基于一款抓包工具 fiddler(使用) 青花瓷 miteproxy 2.对fiddler进行配置允许远程移动端进行连接 tools->options->connection->allow remote ... 允许抓取https请求，安装证书 3.证书下载 PC端：ht 阅读全文

posted @ 2020-06-09 11:30 Hedger_Lee 阅读(269) 评论(0) 推荐(0) 编辑

python模拟数据结构模型

摘要： python模拟数据结构模型模拟栈 Stack() 创建一个空的新栈。它不需要参数，并返回一个空栈。 push(item)将一个新项添加到栈的顶部。它需要 item 做参数并不返回任何内容。 pop() 从栈中删除顶部项。它不需要参数并返回 item 。栈被修改。 peek() 从栈返回顶部项，阅读全文

posted @ 2020-06-09 11:02 Hedger_Lee 阅读(226) 评论(0) 推荐(0) 编辑

timeit模块

摘要： timeit模块用途：用来测试一段python代码的执行速度 Timer类该类是timeit模块中专门用于测量python代码的执行速度/时长的。 from timeit import Timer Timer(stmt='pass',setup='pass') ('test01()',setup 阅读全文

posted @ 2020-06-09 10:44 Hedger_Lee 阅读(108) 评论(0) 推荐(0) 编辑

Hedger_Lee

公告