xpath获取下一页,兄弟节点的妙用

第一页的情况:

 

第四页的情况 :

 

 

文章的链接:  http://tech.huanqiu.com/science/2018-02/11605853_4.html

 

    从上面我们可以看到,如果仅仅用xpath获取下一页的链接 例如:  //div[@id="pages"]/a[@class="a1"][text()="下一页"]/@href     

就会在第四页的时候重复获取相同的链接,我们通过观察可以发现一些规律:

所在的页码是在与链接a标签同级的span标签里面,这个时候我们可以采用兄弟结点,来解决这个问题,

//div[@id="pages"]/span/following-sibling::a[text()!="下一页"]/@href

 

说明:

1  获取到span标签的下一个兄弟结点a标签  (following-sibling::a)

2  寻找它的text内容不为"下一页"  ([text()!="下一页"])

3  再取这个a标签的href属性  (@href)

 

这样在第四页的时候获取到的链接为Null , 就不会重复获取下一页的链接了

 

posted @ 2018-03-29 19:12  椿与湫  阅读(8019)  评论(1编辑  收藏  举报