随笔分类 - 爬虫

scrapy框架

摘要：一、框架介绍 Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，阅读全文

posted @ 2023-03-29 15:38 阿丽米热阅读(77) 评论(0) 推荐(0) 编辑

selenium模块

摘要：一、selenium模块介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器。但是它阅读全文

posted @ 2023-03-27 10:54 阿丽米热阅读(387) 评论(0) 推荐(0) 编辑

使用代理以及搭建代理池

摘要：一、使用代理如果使用自自身IP地址访问，很有可能被封IP，以后就访问不了了那如何解决呢？我们可以使用代理IP(代理：) 设置超时，请求参数加上timeout=时间即可异常处理：用try except 包一下即可上传文件：虽然爬虫没有上传文件的需求但是后期在开发过程中需要批量上传文件，这个时阅读全文

posted @ 2023-03-17 14:55 阿丽米热阅读(432) 评论(0) 推荐(0) 编辑

BeautifulSoup模块

摘要：本篇文章主要讲bs4模块(BeautifulSoup),这个模块能做么呢？用一句话来概括的话：beautifulsoup4 从HTML或XML文件中提取数据的Python库,用它来解析爬取回来的xml。从而从网站中精准爬取自己想要的内容。它是Python的第三方模块，因此需要下载 pip inst 阅读全文

posted @ 2023-03-17 14:03 阿丽米热阅读(113) 评论(0) 推荐(0) 编辑

requests模块

摘要：爬虫是什么？；爬虫就是程序 >从互联网中，各个网站上，爬取数据【前提是：你能浏览的页面才能爬】，做数据清洗，保存到数据库的过程。爬虫本质：模拟方式发送http请求、然后获取数据、再做数据清洗、最后保存到数据库爬虫的重点：如何发送http请求？如何解析数据？本篇爬虫知识主要包括(不会一次性写完，阅读全文

posted @ 2023-03-15 21:34 阿丽米热阅读(419) 评论(0) 推荐(4) 编辑

公告

昵称：阿丽米热
园龄： 2年5个月
粉丝： 27
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

almira998

随笔分类 - 爬虫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论