HTML 遍历

HTML 遍历

HTML基本格式:

HTML基本格式

1.下行遍历:

属性 说明
contents 子节点的列表,将所有儿子节点存入列表
children 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
##遍历儿子结点
for child in soup.body.children:
    print(child)
##遍历子孙结点
for child in soup.body.descendants:
    print(child)

2.上行遍历:

属性 说明
parent 结点的父亲标签
parents 节点先辈标签的迭代类型,用于循环遍历先辈节点
##遍历父辈结点
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

3. 平行遍历

属性 说明
next_sibling 返回按照HTML文本顺序的下一个平行节点标签
previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
next_siblings 迭代类型,返回按照HTML文本顺序的后续所有平行节点标签
previous_siblings 迭代类型,返回按照HTML文本顺序的前续所有平行节点标签
注: 平行遍历发生在同一个父节点下的各节点间
##遍历后续结点
for sibling in soup.a.next_siblings:
    print(sibling)
##遍历前续结点
for sibling in soup.a.previous_siblings:
    print(sibling)
posted @ 2019-01-13 21:10  JeffreyLee  阅读(2797)  评论(0编辑  收藏  举报