爬虫入门--xpatch

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航 。XPath 包含一个标准函数库 。XPath 是 XSLT 中的主要元素 。XPath 是一个 W3C 标准

安装lxml

pip install lxml

简单案例

from lxml import etree

if __name__ == '__main__':
    # 从本地获取
    html = etree.parse('test.html')
    # 从网络获取
    # html = etree.HTML('HTML_TEXT')
    # 层级定位,/表示从指定tag开始
    # r = html.xpath('/html//div')
    # 层级定位,//表示从任意tag开始
    # r = html.xpath('/html//div')
    # 属性定位@attrName="attrValue"
    # r = html.xpath('//div[@class="song"]')
    # 索引定位tag[n],注:n从1开始
    # r = html.xpath('//div[@class="song"]/p[3]')
    # 取标签直系文本值/text()
    # r = html.xpath('//div[@class="tang"]/ul/li[4]/a/text()')[0]
    # 取标签所有文本值,包括非直系//text()
    # r = html.xpath('//div[@class="tang"]/ul/li[7]//text()')[0]
    # 取属性值@attrName
    r = html.xpath('//div[@class="song"]//img/@src')
    print(r)
```python
posted @   芒果AI  阅读(80)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示