python 极好用的解析 html 标签的模块 - BeautifulSoup
记录下各种使用姿态
测试的 html 代码:
<html> <head> <title>Test</title> <body> <p class="title"> <b>Test</b> </p> <div name="ele" class="story"> "i'm a div" <ul> <li> <a href="http://www.baidu.com" id="link1"> <img src="http://www.baidu.com" data-src='//www.baidu.com'> </a> </li> <li> <a href="http://www.baidu.com" id="link2"> <img src="..."> </a> </li> </ul> </div>
这里使用了 python 内置的解析器:
soup = BeautifulSoup(html, 'html.parser')
开始输出
# 输出整个 html print '\n', soup.prettify()
# title 标签 print '\n', soup.title
# title 标签名称 print '\n', soup.title.name
# title 标签内容 print '\n', soup.title.string
# title 标签的父级标签名称 print '\n', soup.title.parent.name
# p 标签(首个 p) print '\n', soup.p
# p 标签名称 print '\n', soup.p.name
# p 标签下的 b 标签 print '\n', soup.p.b
# p 标签的 class 属性值,类型、数组首个值 print '\n', soup.p["class"], type(soup.p["class"]), soup.p["class"][0]
# 首个 a 标签 print '\n', soup.a
# 查找所有 a 标签, 类型数组 a_arr = soup.find_all('a') for value in a_arr: print value
# 查找 id = link2 的标签(特殊的标签属性可以不写 attrs) print '\n', soup.find(id='link2')
# 查找 class 是 title 的标签 print '\n', soup.find(attrs={'class': 'title'})
# 查找 name 是 ele 的标签 print '\n', soup.find(attrs={'name': 'ele'})
# 查找 img,获取相应属性值 img_arr = soup.find_all('img') for value in img_arr: print '\n ', value['src'] attrs = value.attrs for attr in attrs: print '\n ', attr if attr == 'data-src': print '\n ', value[attr]
# 获取 div 标签下所有子节点 print '\n', soup.div.contents,
# 获取 div 下第二个子节点 print '\n', soup.div.contents[1]
# 获取 div 下第二个子节点 print '\n', soup.div.contents[1].li
# 获取 b 标签的文本内容 print '\n', soup.b.get_text()
# 获取无值属性再判断是否None print '\n', soup.div.title, type(soup.div.title), soup.div.title == None, not soup.div.title
# css 选择器 select() print '\n', soup.select('b')
最后,贴上测试代码
# -*- coding: utf-8 -*- from bs4 import BeautifulSoup def main(): html = ''' <html> <head> <title>Test</title> <body> <p class="title"> <b>Test</b> </p> <div name="ele" class="story"> "i'm a div" <ul> <li> <a href="http://www.baidu.com" id="link1"> <img src="http://www.baidu.com" data-src='//www.baidu.com'> </a> </li> <li> <a href="http://www.baidu.com" id="link2"> <img src="..."> </a> </li> </ul> </div> ''' soup = BeautifulSoup(html, 'html.parser') # 输出整个 html # print '\n', soup.prettify() # title 标签 # print '\n', soup.title # title 标签名称 # print '\n', soup.title.name # title 标签内容 # print '\n', soup.title.string # title 标签的父级标签名称 # print '\n', soup.title.parent.name # p 标签(首个 p) # print '\n', soup.p # p 标签名称 # print '\n', soup.p.name # p 标签下的 b 标签 # print '\n', soup.p.b # p 标签的 class 属性值,类型、数组首个值 # print '\n', soup.p["class"], type(soup.p["class"]), soup.p["class"][0] # 首个 a 标签 # print '\n', soup.a # 查找所有 a 标签, 类型数组 # a_arr = soup.find_all('a') # for value in a_arr: # print '\n', value # 查找 id = link2 的标签(特殊的标签属性可以不写 attrs) # print '\n', soup.find(id='link2') # 查找 class 是 title 的标签 # print '\n', soup.find(attrs={'class': 'title'}) # 查找 name 是 ele 的标签 # print '\n', soup.find(attrs={'name': 'ele'}) # 查找 img,获取相应属性值 # img_arr = soup.find_all('img') # for value in img_arr: # print '\n ', value['src'] # attrs = value.attrs # for attr in attrs: # print '\n ', attr # if attr == 'data-src': # print '\n ', value[attr] # 获取 div 标签下所有子节点 # print '\n', soup.div.contents, # 获取 div 下首个子节点 # print '\n', soup.div.contents[0] # 获取 div 下第二个子节点 # print '\n', soup.div.contents[1] # 获取 div 下第二个子节点 # print '\n', soup.div.contents[1].li # 获取 b 标签的文本内容 # print '\n', soup.b.get_text() # 获取无值属性 # print '\n', soup.div.title, type(soup.div.title), soup.div.title == None, not soup.div.title # not 取反 # if not None: # print None # css 选择器 select() print '\n', soup.select('b') # file onload if __name__ == '__main__': main()
标签:
python
, beautifulSoup
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现