摘要: 今天我们来介绍几种反爬机制及其应对方法 Cookie: 在互联网数据传输中http协议是无状态的,每次连接都是新连接,那么有些网站可以记录用户状态是如何做到的呢?大部分都是使用cookie记录用户相关的用户名密码以校验用户状态,首先实现一个小案例吧。 目的地址:雪球网 爬取内容:动态加载的数据(也就 阅读全文
posted @ 2020-10-03 18:29 TopJocker 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 数据解析 对于爬取到数据我们已经有了一定的了解,那么我们最终无论是要将这些数据可视化还是进行统一某种算法的数据分析,我们不可避免的都要将数据持久化存储(无论是文件形式还是数据库形式)可在这之前我们需要对数据进行进一步处理,因为我们爬取的页面数据有很大一部分是对我们来说没有什么用处的,所以在持久化之前 阅读全文
posted @ 2020-10-03 13:15 TopJocker 阅读(178) 评论(0) 推荐(0) 编辑
摘要: request简介 python 爬虫最基础的实现就是由内部的request模块完成的,模块集成了发送网络请求,获取网络数据等功能,接下来就来对request来进行简单地了解 首先说一下什么叫做http,较为官方的解释是超文本传输协议,那么超文本传输协议究竟又是什么东西? HTTP与HTTPS 其实 阅读全文
posted @ 2020-10-03 11:04 TopJocker 阅读(207) 评论(0) 推荐(0) 编辑