摘要: BeautifulSoup4介绍 使用requests模块爬取网页数据时,获取到的是html(xml)内容,比较复杂,不容易获取到想要的数据。而BeautifulSoup4就是用于对html,xml进行解析(修改)。 安装: pip install beautifulsoup4 基本语法: Beau 阅读全文
posted @ 2022-08-01 21:46 Yume_Minami 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 爬虫介绍 爬虫即模拟发送http请求获取数据。所以在学习爬虫时,需要==熟悉http协议==。 爬虫的本质 模拟发送http请求 数据清洗反扒(有一些网站会有反扒手段,需要我们解决) 增加并发量(爬取的数据大时可以增加并发量加速爬取) 入库(保存数据) 爬虫协议 做爬虫要遵循爬虫协议:网站哪些让我们 阅读全文
posted @ 2022-08-01 20:14 Yume_Minami 阅读(68) 评论(0) 推荐(0) 编辑