xpath的基本使用
一、简介
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
二、安装
pip install lxml
三、使用
from lxml import etree
import requests from lxml import etree # 发送请求 res = requests.get('http://www.quanshuwang.com/list/1_1.html').text # 解析下载的数据 html =etree.HTML(res) # xpath 的基本用法 url = html.xpath('//ul[@class="seeWell cf"]/li/a/@href') print(url)
三、语法
XPath 使用路径表达式在 XML/HTML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
下面列出了最有用的路径表达式:
谓语用来查找某个或某些特定的节点或者包含某个指定值的节点 谓语被嵌在方括号中。
选取未知节点 XPath通配符可用来选取未知节点
用text()获取某个节点下的文本
用string()获取某个节点下所有的文本