1. 节点选择器
都是Tag类型,直接调用节点名称可选择节点,调用string属性得到节点内容文本。

2. 提取信息

  • 获取名称
    # print(soup.title.name)
  • 获取属性
# print(soup.p.attrs)            
# print(soup.p['name'])
# print(soup.p['class'])
  • 获取内容
    print(soup.head.string)
  • 嵌套选择
    print(soup.head.title.string)

3. 关联选择

  • 子节点和子孙节点
print(soup.p.contents)        
# contents属性获取直接子节点,返回列表
print(soup.p.children)        
# 相同结果
for i, child in enumerate(soup.p.children):
     print(i, child)

print(soup.p.descendants)     
# descendants属性获得所有子孙节点
for i, child in enumerate(soup.p.descendants):
    print(i, child)
  • 父节点和祖先节点
print(soup.a.parent)        # 父节点
print(soup.a.parents)       # 祖先节点
print(list(enumerate(soup.a.parents)))
  • 兄弟节点
print('Next Sibling', soup.a.next_sibling)                          # 下一个兄弟节点
print('Prev Sibling', soup.a.previous_sibling)                      # 上一个兄弟节点
print('Next Siblings', list(enumerate(soup.a.next_siblings)))       # 后面所有兄弟节点
print('Prev Siblings', list(enumerate(soup.a.previous_siblings)))   # 前面所有兄弟节点

4. 方法选择器(常用)

  • find_all:返回多个
# 根据标签查找,先查ul,再查li下的文本
for ul in soup.find_all(name='ul'):
     print(ul.find_all(name='li'))
     for li in ul.find_all(name='li'):
         print(li.string)

 # 根据属性查找
 print(soup.find_all(attrs={'id': 'list-1'}))     查询id为list_1
 print(soup.find_all(attrs={'name': 'elements'}))
# 等价查询
 print(soup.find_all(id='list-1'))
 print(soup.find_all(class_='element'))

# 根据文本查询
import re
print(soup.find_all(string=re.compile('关键字')))
  • find:返回单个
posted on 2024-02-23 16:33  HelloJacker  阅读(7)  评论(0编辑  收藏  举报