re模块的正则表达式规则

合集 - python爬虫(26)

1.使用urllib爬取百度搜索html2024-09-12 2.urllib.request.Request对象封装请求2024-09-12 3.urllib发送get请求_中文传参问题2024-09-12 4.urllib发送post请求获取html源代码2024-09-14 5.获取动态页面html2024-09-15 6.忽略SSL证书验证2024-09-15 7.使用fake-useragent库伪装请求头2024-09-15 8.urllib自定义opener对象设置代理IP2024-09-16 9.爬虫cookie的使用2024-09-17 10.保存与读取cookie2024-09-18 11.使用urllib.error进行请求异常处理2024-09-18 12.使用requests库发送get和post请求2024-09-21 13.使用Request伪装User-Agent和IP地址2024-09-22 14.requests设置超时时间/requests.Session自动保存cookie/verify忽略ssl证书2024-09-23

15.re模块的正则表达式规则2024-09-25

16.使用re的正则表达式提取腾讯体育新闻摘要2024-09-26 17.BeautifulSoup4解析数据2024-09-26 18.bs4.find_all()搜索文档树和css选择器提取解析后的html数据2024-09-28 19.bs4解析并提取人民网新闻标题数据2024-09-28 20.xpath解析数据2024-09-29 21.谷歌浏览器的xpath插件安装2024-09-30 22.使用re和lxml的xpath功能提取纵横中文网小说推荐榜前3页标题2024-10-03 23.JSON数据2024-10-03 24.使用jsonpath快速提取json的数据2024-10-04 25.提取猫眼电影正在热映电影以及评分2024-10-09 26.单线程与多线程爬虫2024-10-14

什么是正则表达式？

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。换句话说，正则表达式是一种用来描述字符串模式的工具。它使用一些特殊的符号和规则来匹配、查找或替换字符串中的特定部分。

python的re模块提供了许多特殊符号来构建正则表达式：详见官网https://docs.python.org/3.12/library/re.html

1. 定位符，指定字符串中特定的位置

字符	描述
^	匹配字符串的开始位置
$	匹配字符串的结束位置
\b	匹配一个单词边界，即单词与空白字符之间的位置
\B	匹配非单词边界

注：不能将限定符与。。。一起使用

2.非打印字符（特殊序列）：格式为\character，如果character不是ASCII数字或ASCII字母，则生成的re将匹配第二个字符，例如\$匹配字符$。

字符	描述
\f	匹配一个换页符
\n	匹配一个换行符
\r	匹配一个回车符
\s	匹配任何一个空白字符，包括空格、制表符、换页符等，等价于[\f\n\r\t\v]
\S	匹配任何一个非空白字符
\t	匹配一个制表符，等价于\x09和\cI
\v	匹配一个垂直制表符，等价于\x0b和\cK
\cx
\w	匹配字母、数字、下划线，等价于[A-Za-z0-9_]

3.特殊字符，用于匹配重复的模式、选择模式或组合模式

字符	描述
.	匹配除换行符以外的所有字符
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
?	匹配前面的子表达式零次或一次
{n}	匹配前面的子表达式恰好n次
{n,}	匹配前面的子表达式至少n次
{n,m}	匹配前面的子表达式至少n次，但不超过m次

posted @ 2024-09-25 16:47 松鼠q 阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 使用re的正则表达式提取腾讯体育新闻摘要

· JSON数据

· 【python】re模块

· python中提供正则支持的re模块

· python 正则表达式

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识？

公告

昵称：松鼠q
园龄： 4年5个月
粉丝： 1
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类 (5)

Markdown(5)

随笔档案 (39)

文章档案 (1)

2024年9月(1)

阅读排行榜