爬虫基础-Python爬虫库
Python爬虫库
1.模拟浏览器向客户端发起请求
(1) urllib (urllib是Python自带的标准库,无需安装,可以直接使用。拥有一系列用于操作URL的功能。)
(2) requests (用Python语言编写,基于urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。)
(3) aiohttp (基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。)
2.解析数据
(1) lxml (XML和HTML的解析器,可以利用XPath语法,来定位特定的元素及节点信息。)
(2) re (通过正则表达式去匹配信息。)
(3) bs4 (可以从html或xml文件中提取数据。)
3.保存数据
(1) pymysql (连接Mysql数据库,进行相关操作。)
(2) xlwt (连接Excel,进行相关操作。)
(3) aiofiles (用于写异步协程中的保存文件操作。)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律