python_Xpath入门
一:什么是XPath
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
二:语法
表达式
|
描述
|
---|---|
nodename
|
选取此节点的所有子节点。
|
/
|
从根节点选取。
|
//
|
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
|
.
|
选取当前节点。
|
..
|
选取当前节点的父节点。
|
@
|
选取属性。
|
路径表达式
|
结果
|
---|---|
bookstore
|
选取 bookstore 元素的所有子节点。
|
/bookstore
|
选取根元素 bookstore。
注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
|
bookstore/book
|
选取属于 bookstore 的子元素的所有 book 元素。
|
//book
|
选取所有 book 子元素,而不管它们在文档中的位置。
|
bookstore//book
|
选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
|
//@lang
|
选取名为 lang 的所有属性。
|
案例:(博客:https://www.cnblogs.com/lei0213/p/7506130.html)
from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> """ html = etree.HTML(wb_data) print(html) result = etree.tostring(html) print(result.decode("utf-8")) #从输出结果来看,我们打印机html其实就是一个python对象,#etree.tostring(html)则是不全里html的基本写法,补全了缺胳膊少腿的#标签(html,body) #获取某个标签的内容(基本使用) 使用了text()函数 后面有提到 html = etree.HTML(wb_data) html_data = html.xpath('/html/body/div/ul/li/a/text()') print(html) for i in html_data: print(i) #打印指定路径下a标签的属性(可以通过遍历拿到某个属性的值,查找标签的内容) html = etree.HTML(wb_data) html_data = html.xpath('/html/body/div/ul/li/a/@href') for i in html_data: print(i)
谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
路径表达式 | 结果 |
---|---|
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素。 |
//title[@lang='eng'] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]//title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
通配符 | 描述 |
---|---|
* | 匹配任何元素节点。 |
@* | 匹配任何属性节点。 |
node() | 匹配任何类型的节点。 |
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
路径表达式 | 结果 |
---|---|
/bookstore/* | 选取 bookstore 元素的所有子元素。 |
//* | 选取文档中的所有元素。 |
//title[@*] | 选取所有带有属性的 title 元素。 |
选取若干路径
通过在路径表达式中使用"|"运算符,您可以选取若干个路径。
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
路径表达式 | 结果 |
---|---|
//book/title | //book/price | 选取 book 元素的所有 title 和 price 元素。 |
//title | //price | 选取文档中的所有 title 和 price 元素。 |
/bookstore/book/title | //price | 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。 |
运算符
|
描述
|
实例
|
返回值
|
---|---|---|---|
|
|
计算两个节点集
|
//book | //cd
|
返回所有拥有 book 和 cd 元素的节点集
|
+
|
加法
|
6 + 4
|
10
|
-
|
减法
|
6 - 4
|
2
|
*
|
乘法
|
6 * 4
|
24
|
div
|
除法
|
8 div 4
|
2
|
=
|
等于
|
price=9.80
|
如果 price 是 9.80,则返回 true。
如果 price 是 9.90,则返回 false。
|
!=
|
不等于
|
price!=9.80
|
如果 price 是 9.90,则返回 true。
如果 price 是 9.80,则返回 false。
|
<
|
小于
|
price<9.80
|
如果 price 是 9.00,则返回 true。
如果 price 是 9.90,则返回 false。
|
<=
|
小于或等于
|
price<=9.80
|
如果 price 是 9.00,则返回 true。
如果 price 是 9.90,则返回 false。
|
>
|
大于
|
price>9.80
|
如果 price 是 9.90,则返回 true。
如果 price 是 9.80,则返回 false。
|
>=
|
大于或等于
|
price>=9.80
|
如果 price 是 9.90,则返回 true。
如果 price 是 9.70,则返回 false。
|
or
|
或
|
price=9.80 or price=9.70
|
如果 price 是 9.80,
或者 price 是 9.70,则返回 true。
|
and
|
与
|
price>9.00 and price<9.90
|
如果 price 大于 9.00,
并且 price 小于9.90,则返回 true。
|
mod
|
计算除法的余数
|
5 mod 2
|
1
|
四:表达式
-
轴描述(用最直接的方式接近目标节点)
-
节点测试(用于筛选节点位置和名称)
-
节点描述(用于筛选节点的属性和子节点特征)
五:函数
xpath内置很多函数。更多函数查看https://www.w3school.com.cn/xpath/xpath_functions.asp
- contains(string1,string2)
- starts-with(string1,string2)
- ends-with(string1,string2) #不支持
- upper-case(string) #不支持
- text()
- last()
- position()
- node()
我们从使用函数的过程中得到结论,就是有的函数不支持,有的支持,那问题来了,到底哪些函数支持呢。我们在lxml官网找到了答案。https://lxml.de/xpathxslt.html。lxml 支持XPath 1.0 ,想使用其他扩展,使用libxml2,和libxslt的标准兼容的方式。XPath 1.0官方文档 以及其他版本的XPath文档 https://www.w3.org/TR/xpath/
lxml supports XPath 1.0, XSLT 1.0 and the EXSLT extensions through libxml2 and libxslt in a standards compliant way.
除此之外,lxml还提供了自定义函数的方式来扩展xpath的支持度 https://lxml.de/extensions.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
< book > < title >HarryPotter</ title > < author >JK.Rowling</ author > < year >2005</ year > < price >29.99</ price > </ book > |
1
2
3
4
5
6
|
< book > < title >HarryPotter</ title > < author >JK.Rowling</ author > < year >2005</ year > < price >29.99</ price > </ book > |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
< book > < title >HarryPotter</ title > < author >JK.Rowling</ author > < year >2005</ year > < price >29.99</ price > </ book > |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
< bookstore > < book > < title >HarryPotter</ title > < author >JK.Rowling</ author > < year >2005</ year > < price >29.99</ price > </ book > </ bookstore > |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
< bookstore > < book > < title >HarryPotter</ title > < author >JK.Rowling</ author > < year >2005</ year > < price >29.99</ price > </ book > </ bookstore > |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通