Python爬虫库xPath, BeautifulSoup, re, selenium的详细用法
使用技术
- python正则匹配
- Beautifulsoup4库
- xpath解析
正则匹配
- 和JavaScript语言匹配方式类似
- 使用前需导入
re
包 - 有几种正则匹配的方法:match, search, compile, findall, finditer
re.match(a, b, c)
- 三个参数: 匹配的规则, 要匹配的字符串, 匹配方式
- 它是从字符串的第一个位置进行匹配如果满足使用
.span()
方法可以返回它所在的索引位置, 如果不满足则返回None
返回结果.groups()
返回一个包含所有小组的字符串的元组, 使用group(num)
方法可以返回一个包含对应值的元组(从1开始)
re.search(a, b, c)
- 也是三个参数, 与上面相同
- 获取元组方法也相同, 唯一的不同点就是, search不是从一开始进行匹配, 而是如果字符串中包含所要匹配的内容, 则返回第一个匹配成功的
- 注意只返回一个不是多个
re.sub(a, b, c, d, e)
- 执行
替换
操作 a
正则中的模式字符串b
要替换的字符串, 也可以是一个函数c
原始字符串d
匹配后替换的最大次数, 默认是0表示全部匹配替换e
匹配模式, 数字形式
re.compile(a, b)
- 用来编译正则表达式, 供match和search这两个函数使用
- 如果使用的是match方法 在获取匹配的字符时使用group方法获取参数可以省略不写也可以写0
- group方法参数的数值与你所写的正则表达式元组数有关
- start, end, span方法都是返回匹配字符在原字符串中所在的索引位置
https://mp.weixin.qq.com/s/LKC6Hc1bfMVEjU6LZQZk-A
故乡明
分类:
python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话