爬虫入门--xpatch
XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航 。XPath 包含一个标准函数库 。XPath 是 XSLT 中的主要元素 。XPath 是一个 W3C 标准
安装lxml
pip install lxml
简单案例
from lxml import etree
if __name__ == '__main__':
# 从本地获取
html = etree.parse('test.html')
# 从网络获取
# html = etree.HTML('HTML_TEXT')
# 层级定位,/表示从指定tag开始
# r = html.xpath('/html//div')
# 层级定位,//表示从任意tag开始
# r = html.xpath('/html//div')
# 属性定位@attrName="attrValue"
# r = html.xpath('//div[@class="song"]')
# 索引定位tag[n],注:n从1开始
# r = html.xpath('//div[@class="song"]/p[3]')
# 取标签直系文本值/text()
# r = html.xpath('//div[@class="tang"]/ul/li[4]/a/text()')[0]
# 取标签所有文本值,包括非直系//text()
# r = html.xpath('//div[@class="tang"]/ul/li[7]//text()')[0]
# 取属性值@attrName
r = html.xpath('//div[@class="song"]//img/@src')
print(r)
```python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本