beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,“美味汤”的直译也是在说能够把文档像一锅汤一样进行调制。

beautiful soup库的基本元素有:

基本元素 说明
Tag  标签,最基本的信息组织单元
Name  标签的名字 tag.name
Attributes 标签的属性(字典形式) tag.attrs
NavigableString 标签内非属性字符串 tag.string
Comment 标签内注释

 

 

 

 

 

 

 

beautiful soup库的内容遍历方法

下行遍历: .contents    获得子节点的列表(可以用列表的方式进行处理)

      .children          获得子节点的迭代类型,用于循环遍历子节点

                for child in soup.body.children://遍历儿子节点

                  print(child)

                   .descendants       获得子孙节点的迭代类型,包含所有子孙节点,用于循环遍历

上行遍历: .parent            返回节点的父亲标签

      .parents                返回节点先辈标签,可以用于循环遍历 (在遍历时会遍历到               soup本身,soup本身没有先辈标签)     

平行遍历: .next_sibling         返回按照html文本顺序的下一个平行节点标签

      .previous_sibling  返回按照html文本顺序的上一个平行节点标签

      .next_siblings     迭代类型,返回按照html文本顺序的后续所有平行节点标签

      .previous_siblings 迭代类型,返回按照html文本顺序的前续所有平行节点标签

 

最后有一个prettify方法可以对html文档或者html标签进行格式化处理。