随笔 - 2 文章 - 0 评论 - 0 阅读 - 221

爬虫基础-Python爬虫库

Python爬虫库

1.模拟浏览器向客户端发起请求

(1) urllib (urllib是Python自带的标准库，无需安装，可以直接使用。拥有一系列用于操作URL的功能。)

(2) requests (用Python语言编写，基于urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。)

(3) aiohttp (基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字，使用异步库进行数据抓取，可以大大提高效率。)

2.解析数据

(1) lxml (XML和HTML的解析器，可以利用XPath语法，来定位特定的元素及节点信息。)

(2) re (通过正则表达式去匹配信息。)

(3) bs4 (可以从html或xml文件中提取数据。)

3.保存数据

(1) pymysql (连接Mysql数据库，进行相关操作。)

(2) xlwt (连接Excel，进行相关操作。)

(3) aiofiles (用于写异步协程中的保存文件操作。)

posted on 2022-03-23 10:37 Symmtry丶阅读(120) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 爬虫基础-爬虫初识

· Python 网络爬虫的常用库汇总

· python爬虫自动化常用库

· python 爬虫

· python爬虫之入门

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

昵称： Symmtry丶
园龄： 2年11个月
粉丝： 0
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

spider(2)

随笔档案

2022年3月(2)

阅读排行榜