lxml解析

'''
### xpath解析

**安装:pip install lxml**

**简介**

​ XPath 是一门在 HTML/XML 文档中查找信息的语言。XPath 可用来在 HTML/XML 文档中对元素和属性进行遍历。

相比于BeautifulSoup,Xpath在提取数据时会更有效率。

**lxml库**

​ lxml是一款高性能的Python HTML/XML解析器,我们可以利用Xpath来快速的定位特定元素以及获取节点信息



'''

'''
语法:
表达式 描述 用法 说明
nadename 选取此节点下的所有子节点 div 选取div标签下的所有标签,(比如<li><a>等标签里的所有内容)
/ 选取某个节点下的节点 //di/titel 选取div标签下的title标签(或选择绝对路径)
// 从全局节点中选择节点,任意位置均可 //div 选取整个HTMK页面的所有div标签
@ 选取带某个属性的节点 //div[@id] 选择带有id属性的div标签
. 当前节点下 ./span 选择当前节点下的span标签
.. 选取当前节点下的父节点 ../span 选择span标签上一节点(比如div标签下的span标签,使用后,代表选择div标签)
* 匹配任何元素节点 *a 选取所有a标签的内容,无论他在哪一个具体的标签下
*@ 匹配任何属性节点 *@href 选取所有带href属性的内容

'''
'''
谓语:
路径表达式 结果
//bookstore/book[1] 选取bookstore子元素大的第一个book元素
//bookstore/book[last()] 选择bookstore子元素的最后一个book元素
//bookstore/book[last()-1] 选取bookstore子元素的倒数第二个book元素
//title[@lang] 选取所有拥有lang属性的title元素
//title[@lang="eng"] 选取所有lang属性为eng的title元素
//title/a/text() 选取title下的a标签的文本内容

'''
posted @ 2022-08-17 15:17  冬天不下雨  阅读(138)  评论(0编辑  收藏  举报