Xpath用法及其常用函数
XPath简介
XPath (XML Path Language)是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。在Python爬虫中,我们可以利用 XPath 快速地定位 HTML\XML 响应中的特定元素以及获取节点的信息,并且通常情况下会比使用正则表达式提取更简单而且更高效。
XPath语法
我们将以下面的这个 XML 文档为例对XPath的语法进行示例。
选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (step) 来选取的。
下面列出了最有用的路径表达式:
下面是一些实例:
谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
下面是一些实例:
选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
| 路径表达式 | 结果|
XPath 轴
轴可定义相对于当前节点的节点集。
下面是一些实例:
XPATH的几个常用函数