爬虫之Xpath的使用
什么是Xpath
Xpath是一门在HTML、XML文档中查找信息的语言,可以用来在HTML/XML文档中对元素和属性进行遍历
XML:可扩展标记语言,被设计为传输和存储数据,其焦点是数据内容,每个XML的标签叫做节点,
Xpath节点选择工具:
Chrome插件XPath Helper
开源的XPath表达式编辑工具XMLQuire(XML格式文件可用)
Firefox插件XPathChecker
Xpath语法
/表示根节点,
/html/head/title/text()
学习重点:
1、a/text() a的文本内容
a//text() a下的所有文本内容
//a[text()='下一页']选择文本为下一页的a标签
2、/html/head/link/@href 获取属性
//ul[@id='detail-list']/li/p/text()
./当前节点 ../上一级节点
3.//表示从html的任意位置开始选择
//li 整个文档中的li标签
实例
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
实例
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
LXML的使用
导入lxml的etree库,from lxml import etree
利用etree.HTML将字符串转化为Element对象
Element对象具有Xpath方法,
HTML=etree.HTML(text)
lxml可以自动修正html代码,但是也可能会改错,使用etree.tostring来查看修正后的HTML,然后根据修改后的HTML使用Xpath。
文件读取
除了直接读取字符串,还支持从文件读取内容。比如我们新建一个文件叫做 hello.html
利用 parse 方法来读取文件
from lxml import etree html = etree.parse('hello.html') result = etree.tostring(html, pretty_print=True) print(result)
XPath实例测试
(1)获取所有的 <li> 标签
from lxml import etree html = etree.parse('hello.html') print type(html) result = html.xpath('//li') print result print len(result) print type(result) print type(result[0])
<type 'lxml.etree._ElementTree'> [<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>] 5 <type 'list'> <type 'lxml.etree._Element'>
可见,etree.parse 的类型是 ElementTree,通过调用 xpath 以后,得到了一个列表,包含了 5 个 <li> 元素,每个元素都是 Element 类型
I can feel you forgetting me。。 有一种默契叫做我不理你,你就不理我