基于asyncio+pyppeteer的增量式微博网页版爬虫（一）思路分析篇

项目介绍

本项目旨在利用高级搜索功能，爬取微博网页版的详细数据。而大多数爬虫以单线程为主，但单线程存在资源利用率低的不足，针对这以问题，本项目主要使用如下技术：
（1）多线程+协程技术+Redis实现增量式爬虫。实现过程中存在两个技术难点：一是使用redis数据传输时开销频繁，服务器容易崩溃；二是多线程会存在线程抢占资源的问题，这里借鉴了多窗口售票的思路解决了问题。
（2）实现爬取不同时间段的数据，包含实时数据、自定义时间段数据，并自动识别数据是否展示完全，尽可能保证数据都能爬取到。

实现思路

站点分析

不同架构的站点分析见https://www.cnblogs.com/Gimm/p/18190005
考虑API采集数量有限，请求次数有限，移动端数据较少，而网页端具有高级搜索功能，虽然限制最大页数为50页，但可以细化时间粒度采集更多数据。
由于采集转发类型的博文会存在重复数据，故仅考虑采集原创博文。
根据高级搜索功能的所有参数，这里定义自定义参数有：关键词、时间，固定参数：类型=原创，包含=全部

构造一级页面URL

实现流程

获取用户列表节点
1.1 在一级页面获取用户列表节点
遍历用户列表节点
2.1 遍历一级页面的用户列表节点，获取用户名、发布时间、发布日期、发布内容、图片、视频、评论、转发数、点赞数、评论数
2.2 获取mid，构建文章链接和个人主页链接
其中文章链接由mid+base62转码的mid组成
获取微博长文
对于微博长文，需要点击“展开”按钮才能显示完全。
获取微博表情
获取定位文本
部分博文存在定位信息，可直接获取；

对于没有定位信息的博文，见步骤6，跳转到文章链接中，获取“发布于xx”的位置文本。
进入文章链接
获取发布于、关注、粉丝、ip