新手小白的爬虫神器-无代码高效爬取数据

1|0前言

2020年即将过去,回望过去一年是魔幻的一年,今年注定是不平常的一年,我想也是会载入史册,让人类永远铭记今年的重大事件。
全球疫情、中美贸易战、美国大选等一系列重大事件。今年也许是最好的时代同时也是最坏的时代,机遇和危机都是转瞬即逝,我们能做的只有把握当下,未雨绸缪,厚积薄发!

今天毕竟是2020年结束,2021年开始的第一天,不免有所感慨和总结。下面回归到技术博客。。。
年底是跳槽的好时机,最近查看招聘网的各个职位,想要将其爬取下来进行分析。刚开始写过代码进行爬取,奈何本人技术有限,对付高级的反爬虫系统显得心有余而力不足。
于是经过一段时间的查找发现了这个神器:web scraper ,并且它是开源免费的,虽然使用上有些小问题,但是基本满足我的需求。

2|0安装

官网:https://www.webscraper.io/
它是一个谷歌插件,当然也支持火狐,其他的浏览器我就不清楚了。至于插件安装大家可以自己百度,有很多教程。

3|0使用

安装好之后在浏览器的F12或者开发者工具里有一个Web Scraper集成的功能

  1. 创建网站地图
    点击Create new sistemap

  2. 填写信息
    Sitemap name :名称(可以随便写,自己知道意思就行)
    URL: 爬取地址(填你要爬取的网站地址,我这里爬取的是51job,在此声明:此数据仅做个人找工作学习参考,无其他任何商用途径,也希望大家不要用做商用等违法途径。)
    下面的地址能爬取第一页得数据
    https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
    如果我们想要爬取后面多个页面呢,通过分析每一页的URL地址只是中间的数字进行累加,于是使用正则表达式进行匹配[1-8],链接如下:
    https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html?lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

  1. 添加子节点
    点击添加子节点

  2. 配置子节点
    id:可以随便填,最好见文知意
    type:选Text,因为我们是直接获取文本,如果需要获取链接则选link
    点击select可以选择网页上的元素,选择2个会自动往下匹配相同的
    抓取多个数据一定要勾选Multiple
    然后选择_root做为父节点



一个简单的爬虫配置就完成了,下面开始爬取数据
5. 检查
点击Data preview出现你需要获取得数据内容,那么说明配置正确


6. 爬取
点击Scrape,然后点击开始运行

  1. 查看结果
    点击Browse然后点击Refresh Data就可以查看下面抓取到得数据了

  2. 导出数据
    点击Export data as CSV然后保存到你选择的目录

    打开csv检查

    至此数据爬取完成,那么下面进行数据筛选和处理,具体请看下一篇文章。


__EOF__

本文作者Harry
本文链接https://www.cnblogs.com/harry66/p/14219778.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Harry_666  阅读(899)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示