BeautifulSoup库整理

BeautifulSoup库

一.BeautifulSoup库的下载以及使用

1.下载

pip3 install beautifulsoup4

2.使用

improt bs4

二.BeautifulSoup库解析器

解析器	使用方法	优势	劣势
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	Python 的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	速度快文档容错能力强	需要安装C语言库
lxml的XML解析器	BeautifulSoup(mk,'xml')	速度快唯一支持XML的解析器	需要安装C语言库
html5lib解析器	BeautifulSoup(mk,'html5lib')	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢

条件 :

bs4的HTML解析器:安装bs4库
lxml的HTML解析器:pip3 install lxml
lxml的XML解析器:pip3 install lxml
html5lib解析器:pip3 install html5lib

三.BeautifulSoup类的5种元素

基本元素	简单说明	详细说明
tag	标签	分别用<>与</>来表示开头和结尾
name	标签的名字	用法:<tag>.name输出为字符串的形式
attributes	标签里的属性	用法:<tag>.attrs输出为字典的形式
navigablestring	标签里的内容	用法:<tag>.string可以跨域多个标签层次
comment	标签里面的注释	一种特殊的comment类型

获取标签方法,解析后的网页.标签的名字,如果同时存在多个标签只取第一个
获取标签的父标签<tag>.parent
<tag>表示标签
当标签为没有属性的时候,我们获得的是个空字典

四.标签树向下遍历

.contens:子节点列表,不仅仅包括标签节点,也包括字符串节点例如\n
.children:子节点的迭代器类型也包括字符串节点例如\n
descendants:子孙节点的迭代类型也包括字符串节点例如\n

五.标签树向上遍历

.parent:节点的父亲标签
.parents:节点先辈标签的迭代器类型

注意:如果是html的父标签就是他自己,soup本身也是种特殊的标签的他的父标签是空

六.标签树平行遍历

.next_sibling:下一个平行标签
.previous_sibling:上一个平行标签
.next_silbings:迭代器类型,向下所有标签
.previous_silbling:迭代器类型,向上所有标签

注意:必须在同一个父节点下才有平行关系,平行遍历获得的对象不一定是标签,也可能是文本,如果上下没来就为空

七.prettify使得解析后页面更加好看

解析后的页面

prettify():会把解析的网页加上\n的文本文档,能使它打印变得更加好看

posted @ 2019-07-04 19:32 小小咸鱼YwY 阅读(1989) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· AI与.NET技术实操系列（五）：向量存储与相似性搜索在 .NET 中的实现
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理

个人信息

loading

style='clear:both'

生命太短暂

--------------------------------------------

--------------------------------------------

--------------------------------------------

QQ ： 568972484

点击这里QQ找我

微信： YwYbetheone
安卓逆向知识星球：点我加入

昵称：小小咸鱼YwY
园龄： 5年10个月
粉丝： 534
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类 (753)

随笔档案 (705)

阅读排行榜

最新评论

1. Re:python爬虫（学习整理）
你好，觉得写的很好，那些加密文档怎么看呀
--逐梦之路
2. Re:关于最新版ios淘宝没法抓到包的问题
@小小咸鱼YwY 求一份hook的源代码...
--许狗蛋
3. Re:关于最新版ios淘宝没法抓到包的问题
@o0小白0o 你可以先去学习一下ios见到hook,然后看下spdy正向开发怎么发送请求,然后hook对应参数就好了,关键字都没混淆你找应该可以找到...
--小小咸鱼YwY
4. Re:关于最新版ios淘宝没法抓到包的问题
方法四能教教我吗
--o0小白0o
5. Re:ios下载指定版本frida
本来搜frida国内下载源的，无意间搜到这篇文章，惊讶原来也支持ios的hook，赶紧去搜索了一下，还真有很多相关文章。
--悟透
6. Re:爬虫指纹 JA3
pip install curl_cffi 试试，原生模拟浏览器指纹
--ospider
7. Re:python随机生成经纬度(用于爬虫参数伪造)
@小学堂你可以把金纬度理解成一个圆圈,中点选好了半径画个圆中间长度随机取一个...
--小小咸鱼YwY
8. Re:python随机生成经纬度(用于爬虫参数伪造)
请问一下
radius_in_degrees = radius / 111300
这一步里面的111300是什么意思
--小学堂
9. Re:python提取视频中的音频
大佬收下我的膝盖。
--黑化肥会挥发吗
10. Re:GO语言介绍以及开发环境配置
非常有用啊
--Why-L

目录导航