随笔 - 2  文章 - 0  评论 - 0  阅读 - 221

爬虫基础-Python爬虫库

Python爬虫库


1.模拟浏览器向客户端发起请求

(1) urllib (urllib是Python自带的标准库,无需安装,可以直接使用。拥有一系列用于操作URL的功能。)

(2) requests (用Python语言编写,基于urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。)

(3) aiohttp (基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。)

2.解析数据

(1) lxml (XML和HTML的解析器,可以利用XPath语法,来定位特定的元素及节点信息。)

(2) re (通过正则表达式去匹配信息。)

(3) bs4 (可以从html或xml文件中提取数据。)

3.保存数据

(1) pymysql (连接Mysql数据库,进行相关操作。)

(2) xlwt (连接Excel,进行相关操作。)

(3) aiofiles (用于写异步协程中的保存文件操作。)

posted on   Symmtry丶  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示