会员
商店
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
卤蛋实验室
首页
新随笔
管理
随笔 - 20
文章 - 0
评论 - 22
阅读 -
27万
[置顶]
Web Scraper——轻量数据爬取利器
摘要:
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据。 当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了。可是当我们搜索相关教程时,往往会被
阅读全文
posted @ 2020-05-23 13:24 公众号_卤蛋实验室
阅读(19691)
评论(4)
推荐(2)
编辑
2020年7月27日
🦀️ 后羿采集器——良心的爬虫软件
摘要:
2020 年如果让我推荐一款大众向的数据采集软件,那一定是后裔采集器了。和我之前推荐的 web scraper 相比,如果说 web scraper 是小而精的瑞士军刀,那后裔采集器就是大而全的重型武器,基本上可以解决所有的数据爬取问题。 下面我们就来聊聊,这款软件的优秀之处。 一、产品特点 1.跨
阅读全文
posted @ 2020-07-27 09:08 公众号_卤蛋实验室
阅读(9162)
评论(0)
推荐(1)
编辑
2020年4月15日
Web Scraper 高级用法——使用 CouchDB 存储数据 | 简易数据分析 18
摘要:
这是简易数据分析系列的第 18 篇文章。 2020-10-14 日更新: Web Scraper 在 0.5.1 版本后,为了后续的版本迭代,准备迁移数据库,所以对新用户关闭了 CouchDB 开关。 这个改动意味着,如果你是老用户并且通过 Google 应用商店更新了 Web Scraper,Co
阅读全文
posted @ 2020-04-15 23:25 公众号_卤蛋实验室
阅读(5761)
评论(0)
推荐(0)
编辑
2020年3月18日
Web Scraper 高级用法——利用正则表达式筛选文本信息 | 简易数据分析 17
摘要:
这是简易数据分析系列的第 17 篇文章。 学习了这么多课,我想大家已经发现了,web scraper 主要是用来爬取文本信息的。 在爬取的过程中,我们经常会遇到一个问题:网页上的数据比较脏,我们只需要里面的一部分信息。比如说要抓取 电影的评价人数,网页中抓到的原始数据是 1926853人评价,但是我
阅读全文
posted @ 2020-03-18 11:32 公众号_卤蛋实验室
阅读(7179)
评论(0)
推荐(2)
编辑
2020年3月2日
Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16
摘要:
这是简易数据分析系列的第 16 篇文章。 这期课程我们讲一个用的较少的 Web Scraper 功能——抓取属性信息。 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息。我们拿豆瓣电影250举个例子: 电影图片正常显示的时候是这个样子: 如果网络异常,图片加载失败,就会显示图片的默认
阅读全文
posted @ 2020-03-02 10:03 公众号_卤蛋实验室
阅读(6059)
评论(0)
推荐(0)
编辑
2019年12月30日
Web Scraper 高级用法——CSS 选择器的使用 | 简易数据分析 15
摘要:
这是简易数据分析系列的第 15 篇文章。 年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进阶用法。 今天我们就来学习一些 CSS 选择器的知识,辅助 Web Scraper 更好的定位要选择的元素
阅读全文
posted @ 2019-12-30 21:16 公众号_卤蛋实验室
阅读(7857)
评论(1)
推荐(1)
编辑
2019年11月27日
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
摘要:
这是简易数据分析系列的第 14 篇文章。 今天我们还来聊聊 Web Scraper 翻页的技巧。 这次的更新是受一位读者启发的,他当时想用 Web scraper 爬取一个分页器分页的网页,却发现我之前介绍的分页器翻页方法不管用。我研究了一下才发现我漏讲了一种很常见的翻页场景。 在 web scra
阅读全文
posted @ 2019-11-27 10:03 公众号_卤蛋实验室
阅读(12877)
评论(0)
推荐(0)
编辑
2019年10月30日
Web Scraper 高级用法——抓取二级网面 | 简易数据分析 13
摘要:
这是简易数据分析系列的第 13 篇文章。 在前面的课程里,我们抓取的数据都是在同一个层级下的内容,探讨的问题主要是如何应对市面上的各种分页类型,但对于详情页内容数据如何抓取,却一直没有介绍。 比如说我们想抓取 b 站的动画区 TOP 排行榜的数据: https://www.bilibili.com/
阅读全文
posted @ 2019-10-30 07:47 公众号_卤蛋实验室
阅读(15829)
评论(2)
推荐(0)
编辑
2019年9月20日
Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12
摘要:
这是简易数据分析系列的第 12 篇文章。 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据、点击“更多按钮“加载数据和下拉自动加载数据。今天我们说说一种更常见的翻页类型——分页器。 本来想解释一下啥叫分页器,翻了一堆定义觉得很繁琐,大家也不是第一年上
阅读全文
posted @ 2019-09-20 08:44 公众号_卤蛋实验室
阅读(20184)
评论(3)
推荐(1)
编辑
2019年8月30日
Web Scraper 高级用法——抓取表格数据 | 简易数据分析 11
摘要:
这是简易数据分析系列的第 11 篇文章。 今天我们讲讲如何抓取网页表格里的数据。首先我们分析一下,网页里的经典表格是怎么构成的。 First Name 所在的行比较特殊,是一个表格的表头,表示信息分类 2-5 行是表格的主体,展示分类内容 经典表格就这些知识点,没了。下面我们写个简单的表格 Web
阅读全文
posted @ 2019-08-30 08:55 公众号_卤蛋实验室
阅读(11428)
评论(2)
推荐(0)
编辑
下一页
公告
昵称:
公众号_卤蛋实验室
园龄:
5年9个月
粉丝:
68
关注:
0
+加关注
我的标签
简易数据分析
(20)
web scraper
(19)
阅读排行榜
1. Web Scraper 翻页——点击「更多按钮」翻页(Web Scraper 高级用法) | 简易数据分析 08(25471)
2. Web Scraper 翻页——控制链接批量抓取数据(Web Scraper 高级用法)| 简易数据分析 05(21687)
3. Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12(20184)
4. Web Scraper——轻量数据爬取利器(19691)
5. Web Scraper 翻页——抓取「滚动加载」类型网页(Web Scraper 高级用法)| 简易数据分析 10(18778)
点击右上角即可分享