随笔分类 -  爬虫

摘要:一、框架介绍 Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类, 阅读全文
posted @ 2023-03-29 15:38 阿丽米热 阅读(77) 评论(0) 推荐(0) 编辑
摘要:一、selenium模块介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。但是它 阅读全文
posted @ 2023-03-27 10:54 阿丽米热 阅读(387) 评论(0) 推荐(0) 编辑
摘要:一、使用代理 如果使用自自身IP地址访问,很有可能被封IP,以后就访问不了了 那如何解决呢?我们可以使用代理IP(代理:) 设置超时,请求参数加上timeout=时间即可 异常处理:用try except 包一下即可 上传文件:虽然爬虫没有上传文件的需求 但是后期在开发过程中需要批量上传文件,这个时 阅读全文
posted @ 2023-03-17 14:55 阿丽米热 阅读(432) 评论(0) 推荐(0) 编辑
摘要:本篇文章主要讲bs4模块(BeautifulSoup),这个模块能做么呢?用一句话来概括的话:beautifulsoup4 从HTML或XML文件中提取数据的Python库,用它来解析爬取回来的xml。从而从网站中精准爬取自己想要的内容。 它是Python的第三方模块,因此需要下载 pip inst 阅读全文
posted @ 2023-03-17 14:03 阿丽米热 阅读(113) 评论(0) 推荐(0) 编辑
摘要:爬虫是什么?;爬虫就是程序 >从互联网中,各个网站上,爬取数据【前提是:你能浏览的页面才能爬】,做数据清洗,保存到数据库的过程。 爬虫本质:模拟方式发送http请求、然后获取数据、再做数据清洗、最后保存到数据库 爬虫的重点:如何发送http请求?如何解析数据? 本篇爬虫知识主要包括(不会一次性写完, 阅读全文
posted @ 2023-03-15 21:34 阿丽米热 阅读(419) 评论(0) 推荐(4) 编辑

Title
点击右上角即可分享
微信分享提示