新媒体人必备数据分析工具|Web Scraper初级用法
关注公众号:Python爬虫数据分析挖掘,免费获取更多开源项目源码
对于新媒体运营来说,数据分析是必备的能力之一。工作中很多时候都会有很多需要进行数据收集的情况,这时候如果采用手动采集的情况,不仅效率极低,很浪费时间,也容易出错。
我一开始学习新新媒体运营的时候,有一次我在收集一个知乎大v的文章想要分析研究他的选题时,大晚上的我用复制黏贴到表格的方式整整用了一个小时。工作做完之后都有点手抖眼抽筋,累觉不爱,再也不想做这样的工作了。想偷懒的我在网络上扒了又扒,终于找到了这款傻瓜式的爬虫工具——web scraper。
web scraper最大的特点就是对于新手小白非常的友好,非常简单易学,不需要太复杂的编程代码知识,只需要轻松几步,就可以抓取到你所需的内容,一个小时就能轻松掌握。
注意了.jpg
一、Web scraper的下载安装
web scraper是一款chrome插件软件,你可以选择在chrome应用商店中下载安装,如果无法进入应用商店的话可以给我评论区留言,领取web scraper的安装包手动安装,只需要把压缩包拖到扩展工具中就可以了。
扩展工具.png
二、打开Web scraper
打开你想要抓取的网页内容,然后右键点击检查,就可以找到webscraper工具。或者选择通过Ctrl + Shift + I 或者直接点击F12 的方式打开。
打开web scraper.png
三、新建sitemap
create new sitemap下方的有creat sitemap和import sitemap两条命令,前一个是新建,后一个是通过倒入之前建立的代码来执行抓取命令。由于我们是入门,所以选择creat sitemap。
新建sitemap.png
输入sitemap name:这里可以输入你所在的网页名称,如果是豆瓣页,可以输入douban
输入start url(初始网页链接):输入你所在的网页链接就行
四、参数设置
web scraper其实是模拟人的操作来实现数据的抓取的。想抓取二级页面要先抓取到一级页面的内容。
举个例子来说,你要做竞品分析,研究某个知乎创作者写的文章,想抓取标题、赞同数、评论数这些内容,那你必须首先要抓取到文章整体才能进一步抓取到标题、赞同数、评论数这些元素。
创建sitemap之后,就出现一个add new seletor(创建一个选择器)的参数。
参数设置.png
id:这里可以填写你要选择的内容名,比较随意,方便你自己的识别就可以了。比如我想抓取知乎创作者运营的小事的文章,这里我就填入yunyingdexiaoshi。
Type:你要抓取的内容的类型。这里边的下拉选项有text(文本)、link(链接)、image(图片)、table(表格)等等。我们这次要先抓取文章整体可以选择element选项。
Selector:点击选择Select。然后把鼠标移动到想要抓取的内容上方,直到选中整篇文章。先点击选中第一篇文章,然后点击选中第二篇文章,后边的文章就自动识别抓取。然后点击done selecting。
done selecting.png
Multiple:如果要抓取多个要素时点击选择multiple前面的小框。若是单个元素就不必点选了。
Save selecting:保存选择参数时点save selecting。
这样一级页面文章就选择完了,下一步是在文章页面下设置赞同数等二级选择。进入文章整体选择标题等元素时,root/ 后边这部分就是你刚刚抓取的一级选择内容名称。
进入二级页面.png
接下来就是设置二级选择的操作。和一级页面的操作类似。只是Type类型这要根据你想抓取的内容类型进行相应的选择,如果要抓取赞同数或者赞同数时,要选择Text的下拉选项,要抓取标题和链接时,选择的link的下拉选项。
五、爬取数据
点击scrape开始抓取数据,会出现两个参数:request interval和page load delay 默认的数值是2000,这个数值和网速有关,一般情况下2000是ok的。如果网速慢的话加载会比较慢,这样可能就会导致抓取到空白的内容。这种情况下可以把这两个数值设置的大一些,比如设置到3000甚至更大。
抓取时页面不能关,关的话容易出现错误。最后出现no data scraped yet.的页面就代表抓取完了。点refresh就可以预览抓取的内容。
最后想导出表格文件可以点击export data as CSV(csv是一种文件格式,支持excel),然后download now。
六、用web scraper抓取多页
上述的操作可以抓取到你所在的页面单页的内容,如果你想抓取的网页是数字分页的形式,可以通过修改URL的方式实现抓取多页的目的。
一般数字分页这种多页的链接都是有一定规律的
如运营的小事的文章
第一页的链接: https://www.zhihu.com/people/CYFCX/posts?page=1
第二页的链接: https://www.zhihu.com/people/CYFCX/posts?page=2
第三页的链接: https://www.zhihu.com/people/CYFCX/posts?page=3
...
查看你所要抓取的首页和末页的页数,找到差值,如以上页面的差值是1。(不一定所有的差值都是1,一定要先观察好)。然后把规律链接的页数n改为[首页-末页:差值],差值为1时可以忽略不写差值和冒号的部分。
如想要抓取运营的小事的1-4页的文章,在设置URL的时候可以先复制第一页的链接,把最后的数字1改为[1-4],https://www.zhihu.com/people/CYFCX/posts?page=[1-4],把它填入Start URL中。
多页抓取.png
这款傻瓜爬虫工具你get到了吗,快来练习起来吧!