lxml解析

'''
### xpath解析

**安装：pip install lxml**

**简介**

     XPath 是一门在 HTML/XML 文档中查找信息的语言。XPath 可用来在 HTML/XML 文档中对元素和属性进行遍历。

相比于BeautifulSoup，Xpath在提取数据时会更有效率。

**lxml库**

     lxml是一款高性能的Python HTML/XML解析器，我们可以利用Xpath来快速的定位特定元素以及获取节点信息



'''

'''
语法:
表达式           描述                        用法             说明
nadename    选取此节点下的所有子节点            div             选取div标签下的所有标签,(比如<li><a>等标签里的所有内容)
/           选取某个节点下的节点              //di/titel      选取div标签下的title标签(或选择绝对路径)
//          从全局节点中选择节点,任意位置均可   //div           选取整个HTMK页面的所有div标签
@           选取带某个属性的节点              //div[@id]      选择带有id属性的div标签
.           当前节点下                       ./span          选择当前节点下的span标签
..          选取当前节点下的父节点             ../span         选择span标签上一节点(比如div标签下的span标签,使用后,代表选择div标签)
*           匹配任何元素节点                  *a               选取所有a标签的内容,无论他在哪一个具体的标签下
*@          匹配任何属性节点                    *@href        选取所有带href属性的内容 

'''
'''
谓语:
路径表达式                           结果
//bookstore/book[1]         选取bookstore子元素大的第一个book元素
//bookstore/book[last()]    选择bookstore子元素的最后一个book元素
//bookstore/book[last()-1]  选取bookstore子元素的倒数第二个book元素
//title[@lang]              选取所有拥有lang属性的title元素
//title[@lang="eng"]        选取所有lang属性为eng的title元素
//title/a/text()            选取title下的a标签的文本内容

'''