xpath使用技巧
爬虫中我们对于元素的定位有多种方法,大致有:
Beautifulsoup、Xpath和正则表达式三种方式
其中效率比较为:
Beautifulsoup<Xpath<正则表达式
习惯了使用Beautifulsoup的新手在转为使用xpath时可能回遇到一个问题:
xpath的text()方法无法像Beautifulsoup那样直接获取一个标签下所有子标签的文本信息
解决问题的办法也很简单:
转为使用string()方法,但是在使用时不能像text()那样直接selector.xpath("//*[@id='endText']/string()")这样使用
1 createtime = selector.xpath("//*[@class='post_time_source']/text()")[0].strip().rstrip(' 来源:') 2 content = ''.join(selector.xpath("//*[@id='endText']")[0].xpath("string(.)")).replace('\n','').replace('\t','')