学习进度条18

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种:

 

Tag

NavigableString

BeautifulSoup

Comment

 遍历文档树

(1)直接子节点

要点:.contents .children 属性

 

.contents tag 的 .content 属性可以将 tag 的子节点以列表的方式输出

2)所有子孙节点

知识点:.descendants 属性

 

.descendants .contents 和 .children 属性仅包含 tag 的直接子节点,.descendants 属性可以对所有 tag 的子孙节点进行递归循环,和 children 类似,我们也需要遍历获取其中的内容。

 

posted @ 2021-03-18 21:24  独倚高楼凭栏醉  阅读(19)  评论(0)    收藏  举报