python学习 -xpath定位
XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。
一、XPATH定位---常用归纳
定位 | 说明 |
//ul/* | ul的所有子元素 |
//input[2] | 第2个input元素 |
//input[last()] | 最后一个input元素 |
//input[last()-1] | 倒数第二个input元素 |
input[position()<3] | 前两个input元素 |
//input[@value] | 有value属性的input元素 |
//input[@name='passwd' and @pwd='123456'] | 属性name的值等于passwd并且属性pwd的值等于123456的input元素 |
//ul/*[5] | ul的第五个元素 |
//*[text()='heading'] | 任意包含heading文本的元素 |
//input[@*='123456'] | 任意属性的值等于123456的input元素 |
//a/@href | 获取a标签的href属性的值 |
二、常用的五种方法(相对路径)
①使用标签名+节点属性定位
1 语法://标签名[@属性名=属性值] 2 find_element_by_xpath("//input[@id='kw']") # @后跟属性,可以是任何属性
②组合元素索引(下标)定位
1 find_element_by_xpath("//*[@id='J_login_form']/*/*/input[2]")
③通过部分属性值匹配
语法://标签名[contains(@属性名,部分属性值)] 语法://标签名[starts-with(@属性名,部分属性值)] 语法://标签名[ends-with(@属性名,部分属性值)] a. starts-with 例子://input[starts-with(@id, 'ctrl')] 解析:匹配以ctrl开始的属性值
b.ends-with 例子://input[ends-with(@id, '_userName')] 解析:匹配以userName结尾的属性值
备注:
1、ends-with的属性对应的值是否需要_开头,目前不清楚
2、ends-with可能定位不到元素,原因:ends-with方法是xpath2.0的语法,而浏览器只支持xpath1.0。
可能的报错:SyntaxError: Failed to execute ‘evaluate’ on ‘Document’: The string ‘//input[ends-with(@id,‘w’)]’ is not a valid XPath expression.(Session info: chrome=94.0.4606.81)
c.contains 例子://input[contains(@id, 'uaserName')]
解析:匹配含有userName结尾的属性值
④、使用文本内容匹配
1 语法:文本全部匹配://标签名[text()=文本内容] 2 语法:文本部分匹配-包含://标签名[contains(text(), 部分文本内容)] 3 find_element_by_xpath("//a[text()='退出’]") #文本全部匹配 4 find_element_by_xpath("//a[contains(text(), '出’)]") # 文本部分匹配
⑤、使用轴定位表达式
xpath轴可定义某个相对于当前节点的节点集:
- child: 选取当前节点的所有子元素
- parent: 选取当前节点的父节点
- descendant: 选取当前节点的所有后代元素(子、孙等)
- ancestor: 选取当前节点的所有先辈(父、祖父等)
- descendant-or-self: 选取当前节点的所有后代元素(子、孙等)以及当前节点本身
- ancestor-or-self: 选取当前节点的所有先辈(父、祖父等)以及当前节点本身
- preceding-sibling: 选取当前节点k开始标签之前的所有同级节点
- following-sibling: 选取当前节点结束标签之后的所有同级节点
- preceding: 选取文档中当前节点的开始标签之前的所有节点
- following: 选取文档中当前节点的结束标签之后的所有节点
- self: 选取当前节点
- attribute: 选取当前节点的所有属性
- namespace: 选取当前节点的所有命名空间节点
1>descendant表示取当前节点的所有后代元素
2>following表示选取当前节点结束标签之后的所有节点
三、XPATH定位验证
1、验证Xpath定位元素是否正确,可以在Google Chrome的elements或console中进行验证
- 在需要定位的页面,按F12后,切换至elements列下,按下Ctrl+f键,输入xpath表达式
- 在需要定位的页面,按F12后,切换至console列下,输入表达式。语法是:$x("your_xpath_selector")
1> 表达式正确,元素定位正确时,会查找出该元素,如下图
2>未定位准确,找不到该元素,查找结果为空,如图:
3>表达式不正确,无法正常识别情况,可能会有很多种错误,列举一个例子,如图:
原因:语法中括号里需要通过双引号括起来,如果xpath语句中有双引号,要改成单引号,不然只能解析到第一对双引号的内容。这也是需要特别注意的一点。
四、XPATH实例
1、示例一
现在要引用id为“J_password”的input元素,可以像下面这样写:
find_element_by_xpath("//*[@id='J_login_form']/dl/dt/input[@id='J_password']")
当然我们也可以用*号省略具体的标签名称,但元素的层级关系必须体现出来:
find_element_by_xpath("//*[@id='J_login_form']/*/*/input[@id='J_password']")
2、示例二:模糊定位
这段代码中的“退出”这个超链接,没有标准id元素,只有一个rel和href,不是很好定位。用xpath的几种模糊匹配模式来定位它:
a.用contains关键字:
find_element_by_xpath(“//a[contains(@href, ‘logout’)]”)
这句话的意思是寻找页面中href属性值包含有logout这个单词的所有a元素,由于这个退出按钮的href属性里肯定会包含logout,所以这种方式是可行的,也会经常用到。其中@后面可以跟该元素任意的属性名。
b.用Text关键字:
find_element_by_xpath(“//a[contains(text(), ’退出’)]")
c.用start-with:
find_element_by_xpath(“//a[starts-with(@rel, ‘nofo’)]")
寻找rel属性以nofo开头的a元素。其中@后面的rel可以替换成元素的任意其他属性
3、示例三:@xxx 是选择所有属性为xxx的属性
//@id 选择所有的id属性
//BBB[@id] 选择有id属性的BBB元素
//BBB[@*] 选择有任意属性的BBB元素
//BBB[not(@*)] 选择没有属性的BBB元素
4、示例四:使用normalize-space函数去掉前后空格
要点击“货运表现”, 菜单中的所有项的id都是“vertab”,所以不能用id来定位,那么先用文本的xpath试试://a[text()='货运表现'];
发现定位不了,因为文本“货运表现”的前后有空格和换行,那么用包含文本的xpath试试://a[contains(text(), '货运表现')];
但是这个菜单中还有个“非货运表现”,文本也包含“货运表现”,显然不行;
再看这个写法://a[contains(text(),'货运表现') and not(contains(text(),'非货运表现'))];
发现匹配到了多个,原来页面其他地方还有符合这个条件的,前面说了,这个菜单里面的几个项都有共同的id,那么加上id的条件试试://a[@id='vertab' and contains(text(),'货运表现') and not(contains(text(),'非货运表现'))],这个时候可以定位到;
有没有更简单的方法呢,每种语言中都有去除前后空格的方法,那xpath呢?
normalize-space这个方法就可以去除文本中的前后空格和回车,所以这样写://a[normalize-space(text())='货运表现‘]
——————XPATH之normalize-space(.)和normalize-space(text())区别:
.是当前节点,如果在需要字符串的地方使用它,引擎会自动将节点转换为节点的字符串值,对于元素来说,该元素是元素内连接的所有文本节点
text()仅选择作为当前节点的直接子节点的文本节点
例如:给定XML:
<a>Foo
<b>Bar</b>
lish
</a>
假设<a>是当前节点,normalize-space(.)将返回Foo、Bar、lish,但normalize-space(text())会失败,因为text()返回两个文本节点(Foo和lish)的节点集,normalize-space()不接受。
长话短说,如果你想标准化一个元素中的所有文本,请使用.
。如果要选择特定的文本节点,请使用text()
,但请始终记住尽管名称不同,但会text()
返回一个节点集,如果节点集只有一个元素,它将自动转换为字符串。
5、示例五:count()函数可以计数所选元素的个数
//*[count(BBB)=2] 选择含有2个BBB子元素的元素
//*[count(*)=2] 选择含有2个子元素的元素
6、示例六:name()函数返回元素的名称
//*[name()='BBB'] 选择所有名称为BBB的元素(这里等价于//BBB)
start-with()函数在该函数的第一个参数字符串是以第二个参数字符开始的情况返回true,
//*[starts-with(name(),'B')] 选择所有名称以"B"起始的元素
contains()函数当其第一个字符串参数包含有第二个字符串参数时返回true。
//*[contains(name(),'C')] 选择所有名称包含"C"的元素
7、示例七:string-length()函数返回字符串的字符数
//*[string-length(name()) = 3] 选择名字长度为3的元素
/*[string-length(name()) < 3] 选择名字长度小于3的元素
//*[string-length(name()) > 3] 选择名字长度大于3的元素
8、示例八:多个路径可以用分隔符 | 合并在一起
——用|表示或者。不同于java中用||表示或者
——可以合并的路径数目没有限制
//CCC | //BBB 选择所有的CCC和BBB元素
/AAA/EEE | //BBB 选择所有的BBB元素和所有是AAA的子元素的EEE元素
五、xpath总结
1、xpath中 / 和 //的区别
如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径(/表示文档里根下的那些节点)
如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素。即,//后的是匹配的通配符,返回所有满足这个路径条件的节点。(//表示文档里的任何位置的节点)
例如:
//a//b/@abc 指的是文档中所有a元素的属性为abc的后代b元素(包括子代元素)(多级);
//a/b/@abc 指的是文档中所有a元素的属性为abc的子代b元素(一级);
/a/b/@abc 指的是根节点b元素的属性为abc的子代b元素(一级)。
六、python3解析库——lxml
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
1 from lxml import etree 2 3 text = ''' 4 <div> 5 <ul> 6 <li class="item-0" name="iii"><a href="link1.html">第一个</a></li> 7 <li class="item-1"><a href="link2.html">second item</a></li> 8 <li class="item-2"><a href="link5.html">a属性</a> 9 <li class="aaa" name="item"><a href="link222.html">第二个</a></li> 10 <li class="item-8"><a href="link8.html">hhh888</a></li> 11 <li class="aaa" name="item"><a href="link333.html">第三个</a></li> 12 <li class="item-10"><a href="link00.html">hhh000</a></li> 13 <li class="aaa" name="item"><a href="link444.html">第四个</a></li> 14 <li class="item"><a href="link6.html">hhh</a></li> 15 </ul> 16 </div> 17 ''' 18 # html = etree.HTML(text) # 初始化生成一个xpath解析对象 19 # result = etree.tostring(html, encoding='utf-8') # 解析对象输出代码 20 # print(type(html)) 21 # print(type(result)) 22 # print(result) 23 # print(result.decode('utf-8')) 24 html = etree.HTML(text, etree.HTMLParser()) 25 26 # 属性获取 27 result0 = html.xpath("//li[@class='item-0']/a/@href") # 获取li标签的a标签的href属性值 28 result1 = html.xpath("//li[@class='item-0']//@href") # 获取li标签的所有子孙节点的href属性值 29 print(result0, result1) 30 31 # 这里需要注意,[@class='aaa']和[last()]的位置,否则匹配结果存在差别,踩坑之一 32 result2 = html.xpath("//li[@class='aaa'][last()]/a/@href") # 获取class属性为aaa的最后一个li 33 result3 = html.xpath("//li[@class='aaa'][1]/a/@href") # 获取class属性为aaa的第一个li 34 result4 = html.xpath("//li[@class='aaa'][position()>1]/a/@href") # 获取class属性为aaa,且位置为第二个及之后的li 35 result5 = html.xpath("//li[@class='aaa'][last()-2]/a/@href") # 获取class属性为aaa的倒数第三个li 36 print(result2, result3, result4, result5) 37 38 # 节点轴选择 39 result00 = html.xpath("//li[1]/ancestor::*") # 获取所有祖先节点 40 result01 = html.xpath("//li[1]/ancestor::div") # 获取所有祖先div 41 result02 = html.xpath("//li[1]/attribute::*") # 获取所有属性值 42 result03 = html.xpath("//li[1]/child::*") # 获取所有直接子节点 43 result04 = html.xpath("//li[1]/descendant::a") # 获取所有子孙节点的a节点 44 result05 = html.xpath("//li[1]/following::*") # 获取当前节点之后的所有节点 45 result06 = html.xpath("//li[1]/following-sibling::*") # 获取当前节点的所有同级节点 46 print(result00, result01, result02, result03, result04, result05, result06)
案例应用:抓取TIOBE指数前20名排行开发语言
脚本见gitee项目