基于BS4的遍历方法及BS4库的HTML格式化和编码

一、基于BS4的遍历方法

1.html基本格式
在这里插入图片描述
2.便签树的遍历方法
在这里插入图片描述

(1)标签树的下行遍历

属性说明
.contents 子节点的列表,将所有儿子节点存入列表
.children 子节点的迭代类型,与.content类似,用于循环遍历儿子节点
.descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历

遍历儿子节点

for child in soup.body.children:

print(child)

遍历子孙节点
for child in soup.body.descendants
print(child)

(2)标签树的上行遍历

属性说明
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型,用于循环遍历先辈节点

(3)标签树的平行遍历

属性说明
.net_sibling 返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
.next_siblings 迭代类型,返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型,返回按照HTML文本顺序的前续所有平行节点标签

在这里插入图片描述
在这里插入图片描述

二、BS4库的HTML格式化和编码

1.bs4库的prettify()方法

1 print(soup.a.prettify())
 

2.编码
bs4会将所有读取到的文件或字符串都转换为utf-8格式,这是一种国际通用的编码语言,可以很好支持中文等第三方语言

1 >>>soup = BeautifulSoup("< p >中文< /p >","html.praser")
2 >>>soup.p.string
3 '中文'
4 >>>print(soup.p.prettify())
5 < p > 
6  中文
7  </p>

 

 
 
 

posted on 2022-09-26 10:17  帅胡  阅读(187)  评论(0编辑  收藏  举报

导航