python系统学习2——beautiful soup库（bs4库）学习

beautiful soup库作为python第三方库，可以对html语言进行很好的树形解析，“美味汤”的直译也是在说能够把文档像一锅汤一样进行调制。

beautiful soup库的基本元素有：

beautiful soup库的内容遍历方法

下行遍历： .contents　　　　获得子节点的列表（可以用列表的方式进行处理）

　　　　　.children　　获得子节点的迭代类型，用于循环遍历子节点

　　　　　　　　　　　　　　　　for child in soup.body.children://遍历儿子节点

　　　　　　　　　　　　　　　　　　print(child)

.descendants 获得子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

上行遍历： .parent　　返回节点的父亲标签

　　　　　 .parents 返回节点先辈标签，可以用于循环遍历　（在遍历时会遍历到　　　　　　　　　　　　　 soup本身，soup本身没有先辈标签）　

平行遍历： .next_sibling 返回按照html文本顺序的下一个平行节点标签

　　　　　 .previous_sibling 返回按照html文本顺序的上一个平行节点标签

　　　　　 .next_siblings　迭代类型，返回按照html文本顺序的后续所有平行节点标签

　　　　　 .previous_siblings 迭代类型，返回按照html文本顺序的前续所有平行节点标签

最后有一个prettify方法可以对html文档或者html标签进行格式化处理。

发表于 2020-07-02 21:58 青松冷月阅读(207) 评论(0) 编辑收藏举报

公告