xpath使用技巧

爬虫中我们对于元素的定位有多种方法，大致有：

Beautifulsoup、Xpath和正则表达式三种方式

其中效率比较为：

Beautifulsoup<Xpath<正则表达式

习惯了使用Beautifulsoup的新手在转为使用xpath时可能回遇到一个问题：

xpath的text()方法无法像Beautifulsoup那样直接获取一个标签下所有子标签的文本信息

解决问题的办法也很简单：

转为使用string()方法，但是在使用时不能像text()那样直接selector.xpath("//*[@id='endText']/string()")这样使用

1 createtime = selector.xpath("//*[@class='post_time_source']/text()")[0].strip().rstrip('　来源:')
2 content = ''.join(selector.xpath("//*[@id='endText']")[0].xpath("string(.)")).replace('\n','').replace('\t','')

posted @ 2017-12-28 15:44 在路上-UP 阅读(361) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

在路上-UP

唯有前行，不负年华！

xpath使用技巧

习惯了使用Beautifulsoup的新手在转为使用xpath时可能回遇到一个问题：

解决问题的办法也很简单：

公告