python爬虫正则表达式详解

正则表达式

最近学校布置了一个关于python爬虫的期末作业,而我之前对python爬虫一直都比较感兴趣但是没有系统的学过,就想借此机会开个新坑来系统学习和应用python爬虫,那我们开始吧

正则表达式在爬虫中扮演很重要的角色,几乎所有有关字符串的操作都可以使用正则表达式来完成,其可以帮助我们高效地从网页获取提取的信息.在正式接触爬虫之前是非常有必要的学习正则表达式,所有关于正则表达式的操作都使用 python 标准库中的 re 模块

元字符

元字符是正则表达式中具有特殊含义的字符,其用于构建更复杂的模式匹配规则

元字符	匹配内容	实例
.	匹配除换行符以外的任意单个字符	如`a.b` 可以匹配 `aXb, a1b, a b`
\w	匹配所有普通字符(数字、字母或下划线)→[a-z A-Z 0-9 _]	如`\w{3}`可以匹配`abc,a1b,12_`
\s	匹配任意的空白符,包括空格,制表符,换页符等等	如`\s{3}`可以匹配三个连续的空格
\d	匹配数字→[0-9]	如\d{3}可以匹配`123,456` 等等
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾	如`\bcat\b`匹配`cat`
^	匹配字符串的开始位置,多行模式下匹配每一行的开始	如`^abc`只能匹配`abc`开头的字符串
$	匹配字符串的结尾位置,多行模式下匹配每一行的结束	如`abc$`只能匹配以`abc`结尾的字符串
\W	匹配非字母或数字或下划线→[^a-z A-Z 0-9 _]	如`\W{3}`可以匹配`!!!,***`等等
\D	匹配非数字→[^0-9]	如 `\D{3}`可以匹配`abc,xyz`等等
\S	匹配非空白符	`\S{3}`可以匹配`abc,123`等等
		或运算符，匹配左边或右边的表达式
( )	正则表达式分组所用符号，匹配括号内的表达式，表示一个组。	如`(ab)+` 可以匹配`ab,ab,abab`等等
[...]	匹配字符组中的字符	如`[abc]`可以匹配`a,b`或`c`
[^...]	(否定字符集) 匹配除了字符组中字符的所有字符	如`[^abc]`可以匹配除`a,b,c`的所有字符
*	匹配前面的子表达式0次或多次	如`ab*c`可以匹配`ac,abc,abbc`等等
+	匹配前面的子表达式1次或多次	如`ab+c` 可以匹配`abc,abbc,`但不能直接匹配`ac`
?	匹配前面的子表达式0次或1次	如`ab?c`可以匹配`ac,abc`,不能匹配`abbc`
	匹配前面的子表达式恰好 n 次	如`a{3}`只能匹配`aaa`
	匹配前面的子表达式至少 n 次	如`a{2,}`可以匹配`aa,aaa,aaaa`等等
	匹配前面的子表达式至少 n 次，最多 m 次	如`a{2,4}`可以匹配`aa,aaa,aaaa,`但不能匹配`aaaaa`
\	转义字符，用于匹配特殊字符	如`\.`匹配字面上的`.`

贪婪模式与非贪婪模式

在正则表达式中,贪婪模式与非贪婪模式是两种不同的匹配策略,都用于控制量词(*,+,?,{})的行为

贪婪模式

默认情况下,大多数的量词都是贪婪的,贪婪模式会尽可能的多匹配字符,直到无法匹配
常见的贪婪量词:
- *：匹配前面的子表达式零次或多次
- +：匹配前面的子表达式一次或多次
- ?：匹配前面的子表达式零次或一次
- {n}：匹配前面的子表达式恰好 n 次
- {n,}：匹配前面的子表达式至少 n 次
- {n,m}：匹配前面的子表达式至少 n 次，最多 m 次
eg:假设一个字符串”abcdadcde”,使用贪婪模式匹配a.*e
```
import re

text = "abcdadcde"
pattern = re.compile(r'a.*e')

match = pattern.search(text)
print(match.group())  # 输出abcdadcde
```
- 在这个例子中,.* 会尽可能多地去匹配字符,直到最后一个e

非贪婪模式

相比与贪婪模式,非贪婪模式会尽可能地少的去匹配字符,直到条件满足为止,非贪婪模式通过在量词后加上?来启用
常见的非贪婪量词
- *?：匹配前面的子表达式零次或多次，但尽可能少地匹配。
- +?：匹配前面的子表达式一次或多次，但尽可能少地匹配。
- ??：匹配前面的子表达式零次或一次，但尽可能少地匹配。
- {n}?：匹配前面的子表达式恰好 n 次，但尽可能少地匹配。
- {n,}?：匹配前面的子表达式至少 n 次，但尽可能少地匹配。
- {n,m}?：匹配前面的子表达式至少 n 次，最多 m 次，但尽可能少地匹配

eg:假设先有一个字符串”abcdeabcde”,其匹配模式修改为a.*?e

import re

text = "abcdeabcde"
pattern = re.compile(r'a.*?e')

match = pattern.search(text)
print(match.group())  # 输出abcde

posted @ 2024-11-25 23:58 ihav2carryon 阅读(64) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· re模块函数模式详解

· BeautifulSoup(bs4)细致讲解

· python 爬虫中的正则表达式

· Python逆向爬虫之正则表达式

· Python "爬虫"出发前的装备之一正则表达式

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· .NET10 - 预览版1新功能体验（一）

公告

昵称： ihav2carryon
园龄： 10个月
粉丝： 14
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

ihave2carryon

python爬虫正则表达式详解

正则表达式

元字符

贪婪模式与非贪婪模式

贪婪模式

非贪婪模式

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

ihave2carryon

python爬虫 正则表达式详解

正则表达式

元字符

贪婪模式与非贪婪模式

贪婪模式

非贪婪模式

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

python爬虫正则表达式详解