随笔分类 -  爬虫

摘要:爬虫之requests模块 爬虫之BeautifulSoup4 爬虫之selenium 爬虫之Scrapy架构 阅读全文
posted @ 2022-08-17 18:31 Yume_Minami 阅读(22) 评论(0) 推荐(0) 编辑
摘要:Scrapy架构介绍 Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可 阅读全文
posted @ 2022-08-03 20:22 Yume_Minami 阅读(124) 评论(0) 推荐(0) 编辑
摘要:selenium介绍 由于requests模块不能执行js,有的页面内容,我们在浏览器中可以看到,但是请求下来没有。 selenium模块:模拟操作浏览器,完成人的行为。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏 阅读全文
posted @ 2022-08-03 17:51 Yume_Minami 阅读(504) 评论(0) 推荐(1) 编辑
摘要:BeautifulSoup4介绍 使用requests模块爬取网页数据时,获取到的是html(xml)内容,比较复杂,不容易获取到想要的数据。而BeautifulSoup4就是用于对html,xml进行解析(修改)。 安装: pip install beautifulsoup4 基本语法: Beau 阅读全文
posted @ 2022-08-01 21:46 Yume_Minami 阅读(186) 评论(0) 推荐(0) 编辑
摘要:爬虫介绍 爬虫即模拟发送http请求获取数据。所以在学习爬虫时,需要==熟悉http协议==。 爬虫的本质 模拟发送http请求 数据清洗反扒(有一些网站会有反扒手段,需要我们解决) 增加并发量(爬取的数据大时可以增加并发量加速爬取) 入库(保存数据) 爬虫协议 做爬虫要遵循爬虫协议:网站哪些让我们 阅读全文
posted @ 2022-08-01 20:14 Yume_Minami 阅读(72) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示