随笔分类 - 爬虫

爬虫

摘要：爬虫之requests模块爬虫之BeautifulSoup4 爬虫之selenium 爬虫之Scrapy架构阅读全文

posted @ 2022-08-17 18:31 Yume_Minami 阅读(22) 评论(0) 推荐(0) 编辑

摘要：Scrapy架构介绍 Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可阅读全文

posted @ 2022-08-03 20:22 Yume_Minami 阅读(124) 评论(0) 推荐(0) 编辑

爬虫之selenium

摘要：selenium介绍由于requests模块不能执行js，有的页面内容，我们在浏览器中可以看到，但是请求下来没有。 selenium模块：模拟操作浏览器，完成人的行为。 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏阅读全文

posted @ 2022-08-03 17:51 Yume_Minami 阅读(504) 评论(0) 推荐(1) 编辑

爬虫之BeautifulSoup4

摘要：BeautifulSoup4介绍使用requests模块爬取网页数据时，获取到的是html(xml)内容，比较复杂，不容易获取到想要的数据。而BeautifulSoup4就是用于对html，xml进行解析（修改）。安装： pip install beautifulsoup4 基本语法： Beau 阅读全文

posted @ 2022-08-01 21:46 Yume_Minami 阅读(186) 评论(0) 推荐(0) 编辑

爬虫之requests模块

摘要：爬虫介绍爬虫即模拟发送http请求获取数据。所以在学习爬虫时，需要==熟悉http协议==。爬虫的本质模拟发送http请求数据清洗反扒(有一些网站会有反扒手段，需要我们解决) 增加并发量(爬取的数据大时可以增加并发量加速爬取) 入库(保存数据) 爬虫协议做爬虫要遵循爬虫协议：网站哪些让我们阅读全文

posted @ 2022-08-01 20:14 Yume_Minami 阅读(72) 评论(0) 推荐(0) 编辑

公告

昵称： Yume_Minami
园龄： 3年
粉丝： 25
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

Yume Minami

你我所度过的每一个日常，实际上是接连不断发生的奇迹！

随笔分类 - 爬虫

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论