正则表达式学习笔记

本文为阅读《正则表达式必知必会》(修订版) Ben Forta著杨涛等译总结所得，以备后用，内容来自此书。

正则表达式是一些用来匹配和处理文本的字符串。
正则表达式的两种基本用途：搜索和替换。

匹配单个字符

英文字符.来表示任意字符，特殊字符需要用反斜杠转义(\)

符号	作用
[\b]	回退Backspace
\f	换页符
\n	换行符
\r	回车符
\t	制表符
\v	垂直制表符
\r\n	windows系统文本行结束标识
\d	任何一个数字字符，等价于[0-9]
\D	任何一个非数字字符，等价于[^0-9]
\w	任何一个字母数字下划线，等价于[a-zA-Z0-9_]
\W	任何一个非字母数字下划线，等价于[^a-zA-Z0-9_]
\s	任何一个空白字符，等价于[\f\n\r\t\v]，退格符例外
\S	任何一个非空白字符，等价于[^\f\n\r\t\v]，退格符例外

匹配一组字符

利用[]表示字符集合，匹配之间的某一个字符
[]之间也可以放字符区间表示匹配范围内的某一个字符

符号	作用
A-Z	匹配从A到Z的所有大写字母
a-z	匹配从a到z的所有小写字母
A-z	匹配ASCII码从大写A到小写z之间的所有字符，不常用

可以定义多个区间[A-Za-z0-9]
取非匹配[^0-9]，表示匹配任何不是数字的字符

重复匹配

匹配重复的字符1个或多个用+号
匹配重复的字符0个或多个用*号
匹配0个或1个字符用?号
指定重复次数{次数}
指定匹配次数的变化区间{2，4}表示最少重复2次，最多重复4次；{3，}表示至少重复3次
元字符分为贪婪型元字符和懒惰型元字符，贪婪型匹配尽可能多的字符，懒惰型匹配尽可能多的字符，懒惰型元字符为贪婪型后加个?，如*为贪婪型字符，对应的懒惰型字符为*?，为了防止过度匹配，可以使用懒惰型元字符。

位置匹配

单词的边界 \b
字符串的边界 ^和$ 以字符开始和结束
(?m)开头表示分行匹配

子表达式

子表达式必须用()括起来，子表达式允许嵌套，层数没有限制，表达式之间的或条件用 | 来表示

回溯引用

回溯引用允许正则表达式模式引用前面的匹配结果，模式的后半部分引用在前半部分中定义的子表达式，用\1 \2 ...来表示，1，2，3表示子表达式的位置，回溯表达式相当于引用变量。回溯表达式通常用1开始计数，在许多实现里，用0来代表整个正则表达式。

回溯替换操作

替换操作需要用到两个正则表达式：一个用来给出搜索模式，另一个用来给出匹配文本的替换模式。回溯引用可以跨模式使用，在第一个模式里被匹配的子表达式可以用在第二个模式里。

前后查找

操作符	作用
(?=)	正向前查找
(?!)	负向前查找
(?<=)	正向后查找
(?<!)	负向后查找

匹配网页标题

(?<=<[Tt][Ii][Tt][Ll][Ee]>).*(?=<[Tt][Ii][Tt][Ll][Ee]>)

嵌入条件

正则表达式里的条件用?来定义。
?匹配前一个字符或表达式，如果存在的话。
?=和?<=匹配前面或后面的文本，如果存在的话。

MySQL

MySQL对正则表达式的支持体现在允许在WHERE子句中使用如下格式的表达式：

REGEXP "expression"

功能有如下限制：

只提供搜索支持，不支持使用正则表达式进行替换操作。
默认搜索不区分字母大小写，需要在REGEXP和模式之间加BINARY关键字。
[[:<:]]来匹配单词开头，用[[:>:]]匹配单词结束
不支持向前预测
不支持嵌入条件
不支持八进制字符搜索
不支持\a \b \e \f \v
不支持回溯引用

JAVA

Java中的正则表达式匹配功能主要是通过java.util.regex.Matcher类和以下这些方法实现的。

find(): 在一个字符串里寻找一个给定的模式匹配。
lookingAt(): 用一个给定的模式去尝试匹配一个字符串的开头。
matches(): 用一个给定的模式去尝试匹配一个完整的字符串。
replaceAll(): 进行替换操作，对所有匹配都进行替换。
replaceFirst(): 进行替换操作，只对第一个匹配进行替换。

java.util.regex.Pattern类提供了几个简单易用的包装器方法。

compile(): 把一个正则表达式编译成一个模式。
flags(): 返回某给定模式的匹配标志。
matches(): 在功能上等价于刚才介绍的matches()方法。
pattern(): 把一个模式还原为一个正则表达式。
split(): 把一个字符串拆分为子字符串。

java的正则表达式与Perl基本兼容，有几点需要注意。

不支持嵌入条件
不支持使用\E \l \L \u \U 进行字母大小写转换。
不支持使用[\b]匹配退格符。
不支持\z。

常见问题的正则表达式解决方案

IP地址

(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))

URL地址

(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]

电子邮件地址

(\w+\.)*\w+@(\w+\.)+[A-Za-z]+

HTML注释

<!-{2,}.*?-{2,}>

JavaScript注释

//.*

java调用示例

import java.util.regex.*;

public class RegTest{
    public static void main(String[] args) {
        // 要验证的字符串
        String str = "baike.xsoftlab.net";
        // 正则表达式规则
        String regEx = "baike.*";
        // 编译正则表达式
        Pattern pattern = Pattern.compile(regEx);
        // 忽略大小写的写法
        // Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
        Matcher matcher = pattern.matcher(str);
        // 查找字符串中是否有匹配正则表达式的字符/字符串
        boolean rs = matcher.find();
        System.out.println(rs);
    } 
}

三常用正则表达式

1. 匹配中文字符的正则表达式： [u4e00-u9fa5] 评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

2. 匹配双字节字符(包括汉字在内)：[^x00-xff] 评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

3. 匹配空白行的正则表达式：ns*r 评注：可以用来删除空白行

4. 匹配HTML标记的正则表达式：<(S*?)[^>]*>.*?|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

5. 匹配首尾空白字符的正则表达式：^s*|s*$ 评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

6. 匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 评注：表单验证时很实用

7. 匹配网址URL的正则表达式：[a-zA-z]+://[^s]* 评注：网上流传的版本功能很有限，上面这个基本可以满足需求

8. 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 评注：表单验证时很实用

9. 匹配国内电话号码：d{3}-d{8}|d{4}-d{7} 评注：匹配形式如 0511-4405222 或 021-87888822

10. 匹配腾讯QQ号：[1-9][0-9]{4,} 评注：腾讯QQ号从10000开始

11. 匹配中国邮政编码：[1-9]d{5}(?!d) 评注：中国邮政编码为6位数字

12. 匹配身份证：^(\d{6})(18|19|20)?(\d{2})([01]\d)([0123]\d)(\d{3})(\d|X|x)?$ 评注：中国的身份证为15位或18位

13. 匹配ip地址：d+.d+.d+.d+ 评注：提取ip地址时有用

14. 手机号：^1[3|4|5|8][0-9]\d{8}$

15. URL：^((http|https)😕/)?([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$

16. 匹配特定数字：

^[1-9]d*$　 　    //匹配正整数 
^-[1-9]d*$ 　     //匹配负整数 
^-?[1-9]d*$　　   //匹配整数 
^[1-9]d*|0$　     //匹配非负整数（正整数 + 0） 
^-[1-9]d*|0$　　  //匹配非正整数（负整数 + 0） 
^[1-9]d*.d*|0.d*[1-9]d*$　　    //匹配正浮点数 
^-([1-9]d*.d*|0.d*[1-9]d*)$　   //匹配负浮点数 
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　  //匹配浮点数 
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　    //匹配非负浮点数（正浮点数 + 0） 
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　 //匹配非正浮点数（负浮点数 + 0）

评注：处理大量数据时有用，具体应用时注意修正

17. 匹配特定字符串：

^[A-Za-z]+$　　 //匹配由26个英文字母组成的字符串
^[A-Z]+$　　    //匹配由26个英文字母的大写组成的字符串 
^[a-z]+$　　    //匹配由26个英文字母的小写组成的字符串 
^[A-Za-z0-9]+$　//匹配由数字和26个英文字母组成的字符串 
^w+$　　        //匹配由数字、26个英文字母或者下划线组成的字符串

18. 在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:

只能输入数字：^[0-9]*$
只能输入n位的数字：^d{n}$
只能输入至少n位数字：^d{n,}$
只能输入m-n位的数字：^d{m,n}$
只能输入零和非零开头的数字：^(0|[1-9][0-9]*)$
只能输入有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
只能输入有1-3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
只能输入非零的正整数：^+?[1-9][0-9]*$
只能输入非零的负整数：^-[1-9][0-9]*$
只能输入长度为3的字符：^.{3}$
只能输入由26个英文字母组成的字符串：^[A-Za-z]+$
只能输入由26个大写英文字母组成的字符串：^[A-Z]+$
只能输入由26个小写英文字母组成的字符串：^[a-z]+$
只能输入由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$
只能输入由数字、26个英文字母或者下划线组成的字符串：^w+$
验证用户密码:^[a-zA-Z]w{5,17}$ 正确格式为：以字母开头，长度在6-18之间，只能包含字符、数字和下划线。 
验证是否含有^%&'',;=?$"等字符：[^%&'',;=?$x22]+
只能输入汉字：^[u4e00-u9fa5],{0,}$
验证Email地址：^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$
验证InternetURL：^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$
验证电话号码：^((d{3,4})|d{3,4}-)?d{7,8}$
正确格式为：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”，“XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。 
验证身份证号（15位或18位数字）：^d{15}|d{}18$
验证一年的12个月：^(0?[1-9]|1[0-2])$ 正确格式为：“01”-“09”和“1”“12” 
验证一个月的31天：^((0?[1-9])|((1|2)[0-9])|30|31)$ 正确格式为：“01”“09”和“1”“31”。 
匹配中文字符的正则表达式：[u4e00-u9fa5] 
匹配双字节字符(包括汉字在内)：[^x00-xff] 
匹配空行的正则表达式：n[s| ]*r 
匹配HTML标记的正则表达式：/<(.*)>.*|<(.*) />/ 
匹配首尾空格的正则表达式：(^s*)|(s*$) 
匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 
匹配网址URL的正则表达式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

posted @ 2021-04-25 22:16 开心的许久阅读(108) 评论(0) 收藏举报

刷新页面返回顶部

开心的许久