Python笔记——Xpath语法笔记
使用xpath提取网页信息
# 安装lxml 在终端使用命令安装 pip3 install lxml
from lxml import etree # 导入etree
selector = etree.HTML(html) # 将html转换成Element对象
Xpath路径表达式:
——返回节点对象
nodename(节点名) | 选取此节点的所有子节点 |
---|---|
/ | 从根节点选取 |
// | 选取任意位置的该节点 |
. | 选取当前节点 |
… | 选取当前节点的父节点 |
@ | 选取有属性的节点 |
选取未知节点:
* | 匹配任何节点 |
---|---|
@* | 匹配任何带属性节点 |
提取标签的属性值:
——返回标签某属性的值(如href)
/@属性
a = selector.xpath('//a/@href')
提取标签下文本:
/text()
msg = selector.xpath('//title/text()')
提取标签下的所有自节点
加 // 试试吧