Beautiful Soup库入门

1.安装：pip install beautifulsoup4

Beautiful Soup库是解析、遍历、维护“标签树”的功能库

2.引用：(1)from bs4 import BeautifulSoup　　(2)import bs4

BeautifulSoup对应一个HTML/XML文档的全部内容

3.解析器：(1)html.parser　　(2)lxml pip install lxml　　(3)html5lib pip install html5lib

4.BeautifulSoup类的基本元素： <p class = "title">...</p>

Tag	标签，最基本的信息组成单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>...</p>的名字是'P'，格式：<tag>.name
Attributes	标签的属性，字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性字符串，<>...</>中字符串,格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

5.BeabutifulSoup类型是标签树的根节点

(1)标签树的下行遍历：

.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

(2)标签树的上行遍历：

.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

(3)标签树的平行遍历：

.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

上行遍历需判断是否为本身(例下:)

for parent in soup.a.parents:

　　if parent is None:

　　　　print(parent)

　　else:

　　　　print(parent.name)

6.bs4库的prettify()方法：

.prettify()为HTML文本<>及其内容增加更加'\n'
.prettify()可用于标签，方法：<tag>.prettify()

bs4库将任何HTML输入都变成utf-8编码

7.信息标记的三种形式：XML　　JSON　　YAML

信息提取的一般方法：　　

　　　　方法一：完整解析信息的标记形式，再提取关键信息　　　　方法二：无视标记形式，直接搜索关键信息

　　　　融合方法：结合形式解析与搜索方法，提取关键信息

8.HTML内容查找方法：<>.find_all(name, attrs, recursive, string, **kwargs)

<tag>(...) 等价于 <tag>.find_all(..)　　　　　　soup(..) 等价于 soup.find_all(..)

<>.find()	搜索且只返回一个结果，同.find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同.find_all()参数
<>.find_parent()	在先辈节点中返回一个结果,同.find()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，同.find()参数
<>.find_previous_siblings()	在前序平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_previous_sibling()	在前序平行节点中返回一个结果,同.find()参数

posted on 2019-11-22 14:20 武韵阅读(159) 评论(0) 收藏举报

刷新页面返回顶部