谷歌插件Web Scraper爬虫

工具介绍

Web Scraper轻量的爬虫利器。
优点：
不需要学习编程就可以爬取网页数据，可以节省大量的编码及调试时间。
依赖环境相当简单，只需要谷歌浏览器和插件即可。

缺点：
只支持文本数据抓取，图片短视频等多媒体数据无法批量抓取。
不支持复杂网页抓取，比如说采取来反爬虫措施的，复杂的人机交互网页，Web Scraper 也无能为力，其实这种写代码爬取也挺难的。
导出的数据并不是按照爬取的顺序展示的，想排序就就要导出 Excel 再进行排序，这一点也很容易克服，大部分数据都是要导出 Excel 再进行数据分析的。

一、下载

下载链接: https://pan.baidu.com/s/1_o7ZS34TA-py_q2tyJBWjA?pwd=a74m 提取码: a74m

二、安装

Web Scraper 是一个谷歌浏览器插件。下载后直接将crx文件拖入谷歌扩展程序，即可自动安装。

三、使用

参考链接：https://blog.csdn.net/somenzz/article/details/113011179
工具的工作原理：Web Scraper是以树的形式来组织 sitemap 的。
网页的内容是一棵树，树根就是网站的 url，从网站的 url 到我们需要访问的数据所在的元素（html element）就是从树根到叶子节点的遍历的过程。这个过程有简单的，就是直接一条路就走到叶子节点，也有复杂的，采用递归的思想处理页面刷新情况。
简单爬取例子：爬取知乎的热榜数据

1、打开Web Scraper

打开知乎网站，F12显示开发工具，点击Web Scraper

2、创建 sitemap 及 selector

1）创建sitemap

点击Create new sitemap，创建Sitemap，输入以下信息，点击Create sitemap 按钮完成创建。如下图所示：
Sitemap name：zhihu_hot
Start Url:https://www.zhihu.com/hot

2）创建selector

点击Add new selector 添加 selector，也就是添加子节点。
ID 这里填写 category，类型选择 Element Click，此时会出现两个选择器，一个是 selector，代表着要传递给 category 的子节点使用的元素，另一个是 Click selector，代表要点击的元素。为了方便你理解，请先选择 Click selector，在选择 selector，填写完整后点击按钮Save selector，完成selector的创建。如下图所示：

Id:category
Type:Element Click
Selector:div.HotList-list
Click selector:a.HotListNav-item

继续在 category 下添加 Selector，即 category_e， category_e 接受到的元素就是 category 中的 selector 选择的元素，即 div.HostList-list,category_e 的配置。
Id:category_e
Type:Element
Selector:section
Parent Selectors:category
如下图所示：

继续在 category_e 下面继续添加三个 Selector，即 hot_num、title、hot_degree,分别如下图所示：
Id:hot_num
Type:Text
Selector:div.HotItem-rank
Parent Selectors:category_e