从基础到代码实战，带你进阶正则表达式的全方位应用

合集 - 开发与运维(100)

1.面试官：你能简单聊聊MyBatis执行流程2024-02-02 2.一文详解应用安全防护ESAPI2024-02-04 3.一个线程，从“生”到“死”经历的过程2024-02-05 4.KubeEdge v1.16.0 版本发布！10项新增特性2024-02-05 5.解密JavaChassis3：易扩展的多种注册中心支持2024-02-06 6.解析Sermant热插拔能力：服务运行时动态挂载JavaAgent和插件2024-02-08 7.想设计一个高并发的消息中间件前，先熟悉一下这些知识点2024-02-17 8.华为云GES助力九洲平台：探索确定性运维的新实践2024-02-17 9.0-overlay和underlay，这两种容器网络你分得清吗2024-02-18 10.教你用Rust实现Smpp协议2024-02-18 11.基于OpenTelemetry实现Java微服务调用链跟踪2024-02-19 12.揭开华为云ADN提高网络质量的秘密2024-02-19 13.详解网络知识：iptables规则2024-02-19 14.实例详解在Go中构建流数据pipeline2024-02-21 15.面试官让我讲讲MySQL三大核心日志实现原理2024-02-21 16.华为云帕鲁服务器-云耀云容器版，到底强在哪？2024-02-22 17.掌握云容器网络：何为ipvs2024-02-22 18.一文带你了解容器探针2024-02-23 19.教你如何判断Java代码中异步操作是否完成2024-02-26 20.深入解析Python并发编程的多线程和异步编程2024-02-27 21.教你如何用Keepalived和HAproxy配置高可用 Kubernetes 集群2024-02-28 22.容器化环境中，JVM最佳参数配置实践2024-02-29 23.关于Python中math 和 decimal 模块的解析与实践2024-02-29 24.运维一款月变更70+次的服务，是一种什么体验？2024-03-01 25.详解Python中sys模块的功能与应用2024-03-04 26.教你用Ubuntu快速搭建饥荒服务器2024-03-04 27.分享一个能让你的研发效率提升超过20%的工具2024-03-06 28.下一代积木式智能组装编排，集成开发效率10倍提升2024-03-06 29.如何基于容器网络流量指标进行弹性伸缩2024-03-06 30.Sermant运行流程学习笔记，速来抄作业2024-03-06 31.用几张图实战讲解MySQL主从复制2024-03-07 32.速存，详细罗列香橙派AIpro外设接口样例大全（附源码）2024-03-07 33.CCE集群VPC网络模式下几种访问场景2024-03-11 34.聊聊CWE 4.14 与 ISA/IEC 62443中，如何保障工业软件的安全性2024-03-12 35.20个Python random模块的代码示例2024-03-13 36.Java获取堆栈信息的3种方法2024-03-13 37.Prometheus多集群监控的3种方案，你选哪种？2024-03-14 38.手把手的使用Toolkit插件在诗情画意中完成AI诗朗诵2024-03-14

39.从基础到代码实战，带你进阶正则表达式的全方位应用2024-03-14

40.掌握Python库的Bokeh，就能让你的交互炫目可视化2024-03-15 41.从0带你设计与实现基于STM32的智慧农业管理系统2024-03-15 42.Python实践：基于Matplotlib实现某产品全年销量数据可视化2024-03-18 43.何为代码检查服务的门禁级检查2024-03-19 44.深入分析Java中的PriorityQueue底层实现与源码2024-03-19 45.如何在Docker容器启动时自动运行脚本2024-03-20 46.从静态到动态化，Python数据可视化中的Matplotlib和Seaborn2024-03-25 47.无人不识又无人不迷糊的this2024-03-26 48.保姆级教程：教你UniMRCP对接华为云ASR（Linux版）2024-03-26 49.华为云亮相KubeCon EU 2024，以持续开源创新开启智能时代2024-03-26 50.如何用Flask中的Blueprints构建大型Web应用2024-03-27 51.手把手带你用香橙派AIpro开发AI推理应用2024-03-27 52.保护主机安全，我来buff加成2024-03-28 53.探索华为云CCE敏捷版金融级高可用方案实践案例2024-03-28 54.Python数据库编程全指南SQLite和MySQL实践2024-03-28 55.标准库unsafe：带你突破golang中的类型限制2024-03-29 56.【重磅干货】大模型时代，开发者云上成长指南2024-03-29 57.探索Django REST框架构建强大的API2024-03-29 58.实例演示如何使用CCE XGPU虚拟化2024-04-01 59.浅谈JVM整体架构与调优参数2024-04-02 60.Redis开源协议调整，我们怎么办？2024-04-02 61.一文教你实战构建消息通知系统Django2024-04-02 62.kube-apiserver限流机制原理2024-04-07 63.详解Java Chassis 3与Spring Cloud的互操作2024-04-10 64.大量数据如何做分页处理2024-04-10 65.基于istio实现单集群地域故障转移2024-04-10 66.基于istio实现多集群流量治理2024-04-11 67.实例讲解昇腾 CANN YOLOV8 和 YOLOV9 适配2024-04-11 68.20个Python 正则表达式应用与技巧2024-04-12 69.详解K8s 镜像缓存管理kube-fledged2024-04-15 70.如何使用Plotly和Dash进行数据可视化2024-04-15 71.Python中两种网络编程方式：Socket和HTTP协议2024-04-16 72.教你解决CCE集群中容器出网2024-04-16 73.Spring开发：动态代理的艺术与实践2024-04-16 74.Python中2种常用数据可视化库：Bokeh和Altair2024-04-17 75.K8s集群nginx-ingress监控告警最佳实践2024-04-18 76.如何基于Django中的WebSockets和异步视图来实现实时通信功能2024-04-22 77.实践展示openEuler部署Kubernetes 1.29.4版本集群2024-04-22 78.根据Nginx Ingress指标对指定后端进行HPA2024-04-22 79.教你如何进行Prometheus 分片自动缩放2024-04-23 80.世界读书日 | 开发者必读书单重磅来袭，华为云DTSE专家天团力荐2024-04-23 81.认识一下JavaScrip中的元编程2024-04-23 82.一次故障演练，十分钟自动搞定?2024-04-25 83.实践探讨Python如何进行异常处理与日志记录2024-04-25 84.6个实例带你解读TinyVue 组件库跨框架技术2024-04-26 85.11个Python循环技巧2024-04-28 86.华为云FunctionGraph构建高可用系统的实践2024-04-28 87.从原始边列表到邻接矩阵Python实现图数据处理的完整指南2024-04-30 88.教你用Perl实现Smgp协议2024-05-06 89.Python文本统计与分析从基础到进阶2024-05-06 90.Sermant在异地多活场景下的实践2024-05-08 91.华为云开发者桌面全新发布CodeArts IDE for Python，极致优雅云原生开发体验2024-05-08 92.关于Java Chassis 3的契约优先（API First）开发2024-05-09 93.带你熟悉CCE集群增强型CPU管理策略enhanced-static2024-05-11 94.从XML配置角度理解Spring AOP2024-05-13 95.Java Chassis 3：接口维度负载均衡2024-05-13 96.Python函数与模块的精髓与高级特性2024-05-14 97.地理数据可视化的神奇组合：Python和Geopandas2024-05-15 98.openGemini v1.2.0版本正式发布，IoT 场景性能大幅提升！2024-05-15 99.聊聊MySQL是如何处理排序的2024-05-16 100.教你如何搞定springboot集成kafka2024-05-16

本文分享自华为云社区《Regex Mastery: 从基础到高级，解锁正则表达式的全方位应用》，作者：柠檬味拥抱。

正则表达式是一种强大的文本匹配和处理工具，广泛应用于文本处理、数据抽取、表单验证等领域。本文将从正则表达式的基础知识出发，逐步深入，最终结合代码实战，带你全面了解正则表达式的奥妙。

正则表达式基础

1. 什么是正则表达式？

正则表达式是一种描述字符串匹配规则的文本模式，可以用来检索、替换、验证等操作。它由一系列字符和操作符组成，表示一种匹配规则。

2. 基础语法

字符匹配：使用普通字符直接匹配文本，如 abc 匹配字符串中的 “abc”。
元字符：具有特殊意义的字符，如 . 表示匹配任意字符，^ 表示匹配字符串的开头。
字符类：用方括号表示，如 [aeiou] 匹配任何一个元音字母。

3. 量词和边界

量词：用于指定匹配的次数，如 * 表示零次或多次，+ 表示一次或多次，? 表示零次或一次。
边界：使用 ^ 表示字符串的开头，$ 表示字符串的结尾。

正则表达式代码实战

1. 使用正则表达式验证邮箱

import re

def validate_email(email):
    pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    if re.match(pattern, email):
        print(f"{email} 是一个有效的邮箱地址")
    else:
        print(f"{email} 不是一个有效的邮箱地址")

# 测试
validate_email("user@example.com")
validate_email("invalid_email@.com")

2. 提取HTML中的链接

import re

html_content = '<a href="https://www.example.com">Visit our website</a>'

# 提取链接
links = re.findall(r'href="([^"]*)"', html_content)

# 输出链接
for link in links:
    print(f"链接: {link}")

3. 替换文本中的日期格式

import re

text = "今天是2024年2月27日，明天是2024-02-28。"

# 替换日期格式
formatted_text = re.sub(r'(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', text)

print(f"替换前: {text}")
print(f"替换后: {formatted_text}")

4. 使用正则表达式判断密码强度

import re

def check_password_strength(password):
    # 至少8个字符，包含至少一个大写字母、一个小写字母、一个数字和一个特殊字符
    pattern = r'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'
    
    if re.match(pattern, password):
        print("密码强度符合要求")
    else:
        print("密码强度不够")

# 测试
check_password_strength("StrongPass123!")
check_password_strength("weakpassword")

5. 从文本中提取手机号码

import re

text = "请联系客户：+86 13812345678 或者发送邮件至info@example.com"

# 提取手机号码
phone_numbers = re.findall(r'(?:(?:\+|00)86)?1[345789]\d{9}', text)

# 输出手机号码
for number in phone_numbers:
    print(f"手机号码: {number}")

6. 拆分逗号分隔的字符串

import re

csv_data = "apple,orange,banana,grape"

# 使用正则表达式拆分
items = re.split(r',', csv_data)

# 输出拆分结果
print("拆分后的结果:", items)

7. 使用正则表达式验证URL

import re

def validate_url(url):
    # 简单的URL验证，以http或https开头，后面跟着域名
    pattern = r'^(https?://)?[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}(?:/[^/#?]+)*(?:\?[^#]*)?(?:#(.*))?$'
    
    if re.match(pattern, url):
        print(f"{url} 是一个有效的URL")
    else:
        print(f"{url} 不是一个有效的URL")

# 测试
validate_url("https://www.example.com")
validate_url("ftp://invalid-url.com")

8. 从HTML中提取文本内容

import re

html_content = '<p>This is a <b>sample</b> HTML content.</p>'

# 提取纯文本内容
text_content = re.sub(r'<[^>]+>', '', html_content)

print(f"HTML内容: {html_content}")
print(f"提取后的文本内容: {text_content}")

9. 匹配重复字符

import re

text = "这个单词是重复重复的，但是它们都是有意义的重复。"

# 匹配连续重复的单词
repeated_words = re.findall(r'\b(\w+)\s+\1\b', text)

# 输出匹配结果
print("连续重复的单词:", repeated_words)

10. 使用正则表达式提取日志信息

import re

log_data = """
2024-02-27 10:15: Error in module A
2024-02-27 11:30: Warning in module B
2024-02-27 12:45: Info: Application started
"""

# 提取日志信息
log_entries = re.findall(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}): (Error|Warning|Info): (.+)', log_data)

# 输出提取结果
for entry in log_entries:
    timestamp, log_level, message = entry
    print(f"{timestamp} - [{log_level}] {message}")

11. 使用正则表达式进行文本替换

import re

text = "这是一个示例文本，包含一些需要替换的词汇，例如apple和orange。"

# 替换文本中的水果名称
replaced_text = re.sub(r'\b(apple|orange)\b', 'fruit', text)

print(f"替换前: {text}")
print(f"替换后: {replaced_text}")

12. 匹配多行文本

import re

multiline_text = """
This is line 1.
Another line here.
And a third line.
"""

# 匹配包含"line"的行
matching_lines = re.findall(r'.*line.*', multiline_text, re.MULTILINE)

# 输出匹配结果
for line in matching_lines:
    print(f"匹配的行: {line}")

我们深入了解了正则表达式在处理日志、进行文本替换等实际场景中的应用。正则表达式的强大之处在于它的灵活性和通用性，可以适应各种文本处理需求。希望这些例子能够进一步拓展你对正则表达式的认识，并激发你在实际项目中更广泛地应用它的兴趣。如果有其他关于正则表达式的问题或者需要更多的实例，欢迎继续提问。

13. 正则表达式分组与捕获

在正则表达式中，使用括号可以创建分组，通过分组可以实现更精细的匹配和捕获。

import re

text = "2024-02-27 08:30: Process A started, Process B started"

# 匹配并捕获时间和进程名称
pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}): (Process [A-Z]) started'
matches = re.findall(pattern, text)

# 输出捕获结果
for match in matches:
    timestamp, process_name = match
    print(f"时间: {timestamp}, 进程: {process_name}")

14. 非贪婪匹配

正则表达式默认是贪婪匹配，即尽可能匹配更多的字符。在量词后加上?可以实现非贪婪匹配。

import re

text = "<b>bold text</b> and <i>italic text</i>"

# 贪婪匹配
greedy_match = re.search(r'<.*>', text).group()

# 非贪婪匹配
non_greedy_match = re.search(r'<.*?>', text).group()

print(f"贪婪匹配: {greedy_match}")
print(f"非贪婪匹配: {non_greedy_match}")

15. 使用正则表达式验证IP地址

import re

def validate_ip_address(ip):
    pattern = r'^(25[0-5]|2[0-4]\d|1\d{2}|[1-9]\d|\d)(\.(25[0-5]|2[0-4]\d|1\d{2}|[1-9]\d|\d)){3}$'
    
    if re.match(pattern, ip):
        print(f"{ip} 是一个有效的IP地址")
    else:
        print(f"{ip} 不是一个有效的IP地址")

# 测试
validate_ip_address("192.168.0.1")
validate_ip_address("256.0.0.1")

通过这些高级的正则表达式实例，我们进一步提升了对正则表达式功能的理解和应用。分组、非贪婪匹配等特性使得正则表达式更加灵活和强大，能够满足更复杂的匹配需求。希望这些例子有助于你更深入地理解和运用正则表达式。如果你还有其他关于正则表达式的问题，欢迎提出。

16. 零宽断言

零宽断言是一种特殊的正则表达式结构，用于在匹配位置上添加条件，但并不消耗字符。常见的零宽断言包括正向先行断言（(?=...)）、负向先行断言（(?!...)）、正向后行断言（(?<=...)）、负向后行断言（(?<!...)）等。

import re

text = "apple orange banana"

# 匹配单词前面是"apple"的空格
positive_lookahead = re.search(r'apple(?=\s)', text).group()

# 匹配单词前面不是"apple"的空格
negative_lookahead = re.search(r'(?<!apple)\s', text).group()

print(f"正向先行断言: {positive_lookahead}")
print(f"负向先行断言: {negative_lookahead}")

17. 使用正则表达式验证日期格式

import re

def validate_date(date):
    pattern = r'^(19|20)\d{2}-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])$'
    
    if re.match(pattern, date):
        print(f"{date} 是一个有效的日期格式")
    else:
        print(f"{date} 不是一个有效的日期格式")

# 测试
validate_date("2024-02-27")
validate_date("2024/02/27")

18. 正则表达式的替换与回调函数

利用正则表达式进行替换时，可以结合回调函数，实现更复杂的替换逻辑。

import re

def multiply(match):
    number = int(match.group(1))
    return str(number * 2)

text = "Numbers: 2, 5, 8, 12"

# 使用回调函数替换数字
result = re.sub(r'\b(\d+)\b', multiply, text)

print(f"替换前: {text}")
print(f"替换后: {result}")

通过这些高级的正则表达式实例，我们深入了解了零宽断言、日期格式验证以及替换与回调函数的应用。这些功能强大的特性使得正则表达式成为处理复杂文本匹配和替换任务的得力工具。希望这些例子有助于你更灵活地运用正则表达式解决实际问题。如果你还有其他关于正则表达式的疑问或需求，欢迎继续提问。

总结

通过本文的内容，我们全面深入地探讨了正则表达式的基础知识和高级应用。在基础部分，我们学习了正则表达式的基本概念、语法元素以及常见的匹配规则。随后，我们通过多个实例展示了正则表达式在不同场景的代码应用，包括邮箱验证、HTML链接提取、文本替换、密码强度验证等。

在高级部分，我们介绍了正则表达式的进阶特性，包括分组与捕获、非贪婪匹配、零宽断言等。这些特性使得正则表达式更加灵活，能够应对更复杂的文本匹配需求。同时，我们还探讨了如何使用正则表达式验证日期格式、IP地址，以及利用回调函数实现更复杂的替换逻辑。

通过这篇文章，读者不仅学到了正则表达式的基础知识，还深入了解了它在实际编程中的广泛应用。正则表达式作为文本处理的得力工具，能够提高开发效率，简化代码逻辑。希望本文的内容能够帮助读者更自信、更灵活地运用正则表达式解决实际问题，同时也鼓励进一步深入学习和探索这一强大工具。如有任何问题或疑问，欢迎随时提问，共同学习进步。

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-03-14 10:54 华为云开发者联盟阅读(365) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 20个Python 正则表达式应用与技巧

· 解读代码检查规则语言CodeNavi的表达式节点和属性

· 深入理解正则表达式：从入门到精通

· 你是如何学会正则表达式的？

· 正则表达式从入门到入坑

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业

历史上的今天：
2023-03-14 DBA必备的Mysql知识点：数据类型和运算符
2023-03-14 DSC：数仓SQL脚本迁移的神奇工具
2023-03-14 实践Pytorch中的模型剪枝方法
2022-03-14 云图说｜DRS数据对比——带您随时观测数据一致性
2022-03-14 “==”和“===”，难道不是多一个的区别吗？
2022-03-14 详解图像处理的算术运算与逻辑运算
2022-03-14 设计秒杀系统架构，这4个关键点要注意

公告

昵称：华为云开发者联盟
园龄： 4年9个月
粉丝： 855
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六