10 2020 档案

摘要:中间件: 概念和django的中间件概念很相似,当有响应由下载器传到引擎的时候都会先经过中间件,而当请求从引擎到下载器的时候也会先经过中间件,这样一来我们就可以在中间件处对请求和响应进行我们想要效果的修改。(虽然在spider与引擎中间同样存在中间件,但是我们更多的是使用下载中间件) (1)引擎将请 阅读全文
posted @ 2020-10-10 20:56 TopJocker 阅读(144) 评论(0) 推荐(0) 编辑
摘要:其实这次的内容我是想放在上一篇的博文中的,但是上次犯懒了,就放在这里了奥。 基于mysql持久化操作: 将爬取数据写入文件这种情况还是少见的,因为文件无论是内存占用还是读写速度都存在一定的瑕疵,所以我们更多的是操作数据库。因为items对象已经准备好了所以我们只需要进行pipeline管道更改就可以 阅读全文
posted @ 2020-10-10 10:33 TopJocker 阅读(130) 评论(0) 推荐(0) 编辑
摘要:scrapy框架 相对于很多人来说request并不能满足他们的需求或者说需求太多,导致代码过于复杂,本着简便众人的思想python大牛们携万物可封装的理念为我们封装了scrapy高性能异步爬虫框架,让我们使用起来更加得心应手,在这里我们将对scrapy进行简单地介绍,过于底层的东西我们不去探讨。 阅读全文
posted @ 2020-10-09 10:13 TopJocker 阅读(123) 评论(0) 推荐(0) 编辑
摘要:异步爬虫 异步是在同一时间点多个任务共同进行,爬虫是抓取互联网数据,那么异步和爬虫能碰撞出怎样的火花? 提到异步后端开发的朋友们的反应肯定是线程协程等一系列概念,那么首先让我们介绍基于多线程的爬虫。 1.基于多线程的爬虫 既然我们要开启多线程那么就不得不用到线程池了,接下来我将用一个实例简单地介绍多 阅读全文
posted @ 2020-10-06 14:07 TopJocker 阅读(180) 评论(0) 推荐(0) 编辑
摘要:今天我们来介绍几种反爬机制及其应对方法 Cookie: 在互联网数据传输中http协议是无状态的,每次连接都是新连接,那么有些网站可以记录用户状态是如何做到的呢?大部分都是使用cookie记录用户相关的用户名密码以校验用户状态,首先实现一个小案例吧。 目的地址:雪球网 爬取内容:动态加载的数据(也就 阅读全文
posted @ 2020-10-03 18:29 TopJocker 阅读(168) 评论(0) 推荐(0) 编辑
摘要:数据解析 对于爬取到数据我们已经有了一定的了解,那么我们最终无论是要将这些数据可视化还是进行统一某种算法的数据分析,我们不可避免的都要将数据持久化存储(无论是文件形式还是数据库形式)可在这之前我们需要对数据进行进一步处理,因为我们爬取的页面数据有很大一部分是对我们来说没有什么用处的,所以在持久化之前 阅读全文
posted @ 2020-10-03 13:15 TopJocker 阅读(182) 评论(0) 推荐(0) 编辑
摘要:request简介 python 爬虫最基础的实现就是由内部的request模块完成的,模块集成了发送网络请求,获取网络数据等功能,接下来就来对request来进行简单地了解 首先说一下什么叫做http,较为官方的解释是超文本传输协议,那么超文本传输协议究竟又是什么东西? HTTP与HTTPS 其实 阅读全文
posted @ 2020-10-03 11:04 TopJocker 阅读(215) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示