lxml及xpath语法学习记录

lxml库及xpath总结

1、Lxml库简介及作用

 2、HTML方法、tostring方法

 3、xpath语法

1、Lxml库简介及作用

Lxml库是基于libxml2的XML解析库的封装。只用C语言编写，用xpath语法解析定位网页数据
导入方法：from lxml import etree

2、HTML方法、tostring方法

lxml库中的HTML方法将文档解析成一个Element对象，它是lxml库中的核心数据结构之一。Element对象表示XML或HTML文档中的一个元素，并以树形结构保存了整个文档的层次关系和内容。
Element对象具有类似于字典的属性和方法，可以通过标签名、属性等方式访问和操作文档中的元素和数据。

使用方法如下：

from lxml import etree


从字符串解析HTML

html_string = "<html><body><h1>Hello, World!</h1></body></html>" html_tree = etree.HTML(html_string)

HTML方法同时还具有自动修正HTML代码的功能，

比如将上面的html_string= "<html><body><h1>Hello, World!</h1></body></html>"

改为 html_string = "<html><body><h1>Hello, World!</h1></body>" 最终得到的结果是一样的，结尾的</html>会被自动补上。

具体的属性和方法等后面学到或者用到了记得补上。

3、xpath语法

节点选择

字符	意义
node	选择此节点的所有子节点
/	从根节点开始选择
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

节点选择实例

字符	意义
user_database	选取元素user_database所有子节点,例如div，h2等
/user_database	选取根元素user_database
user_database/user	选取属于user_database的子元素的所有user元素
//user	选取所有user子元素，不管它们在文档的位置
user_database//user	选择属于user_database元素后代所有user元素，不管它们位于user_database下的什么位置
//@attribute	选取名为attribute的所有属性

谓语

字符	意义
/user_database[1]	选取user_database子元素的第一个user元素
//li[@attribute]	选取所有拥有名为attribute属性的li元素
//li[@attribute = 'red']	选取所有li元素且这些元素都有值为red的属性

通配符及逻辑运算符选择

字符	意义
*	匹配任意节点
@*	匹配任意属性节点
and	与操作符，同时满足两个条件
or	或操作符，满足任意一个条件
not	非操作符，不满足指定条件的节点

在最后加上/text()可以获取标签内文本信息如：

id = selector.xpath('//*[@id = "qiushi_tag"]/div/a[2]/h2/text()')

posted on 2023-08-04 00:24 jzcat 阅读(33) 评论(0) 编辑收藏举报

刷新页面返回顶部

littlejazzcat

导航

公告

lxml及xpath语法学习记录

lxml库及xpath总结

1、Lxml库简介及作用

2、HTML方法、tostring方法

从字符串解析HTML

3、xpath语法