入门学习正则表达式regex(更新ing)
首发于个人的CSDN上: 入门学习正则表达式regex(更新ing)
前序
“以正则表达式来思考(think regularexpression)”
——精通正则表达式(第三版)
- 所谓正则表达式,就是
一种描述字符串结构模式的形式化表达方法
。
在发展的初期,这套方法仅限于描述正则文本,故此得名“
正则表达式(regular expression)
”。
随着正则表达式研究的深入和发展,特别是
Perl
语言的实践和探索,正则表达式的能力已经大大突破了传统的、数学上的限制,成为威力巨大的实用工具
,在几乎所有主流语言中获得支持。
莫不如此,甚至
功能稍强大一些的文本编辑工具(IDEA、VS Code)
,都支持正则表达式。
尤其是在Web 兴起之后,开发任务中的一大部分甚至全部,都是对字符串的处理。相比简单的字符串比较、查找、替换,正则表达式提供了强大得多的处理能力(最重要的是,它能够处理“符合某种抽象模式”的字符串,而不是固化的、具体的字符串)。
熟练运用它们,能够节省大量的开发时间。
优势
-
一方面,因为正则表达式
处理的对象是字符串,或者抽象地说,是一个对象序列
,而这恰恰是当今计算机体系的本质数据结构
,我们围绕计算机所做的大多数工作,都归结为在这个序列上的操作
,因此,正则表达式用途广阔。 -
另一方面,与大多数其他技术不同,
正则表达式具有超强的结构描述能力
,而在计算机中,正是不同的结构把无差别的字节组织成千差万别的软件对象,再组合成为无所不能的软件系统,因此,描述了结构,就等于描述了系统。
在这方面,正则表达式的地位是独特的。
What is 正则表达式?
正则表达式是``⼀组由字⺟和符号组成的特殊⽂本`,它可以⽤来从⽂本中找出满⾜你想要的格式的句⼦。
正则表达式可以从⼀个基础字符串中根据⼀定的匹配模式
替换⽂本中的字符串
、验证表单
、提取字符串
等等。
- ⼀个正则表达式是
⼀种从左到右匹配主体字符串的模式
。
“
Regular expression
”这个词⽐较拗⼝,我们常使⽤缩写的术语“regex
”或“regexp
”。
举例
假设⼀个⽤户命名的规则,让⽤户名包含字符、数字、下划线和连字符,以及限制字符的个数,好让名字看起来没那么丑。
我们使⽤以下正则表达式来验证⼀个⽤户名:
以上的正则表达式可以接受 john_doe
、jo-hn_doe
、john12_as
。
但不匹配Jo
,因为它包含了⼤写的字⺟⽽且太短了。
入门
- 正则表达式中"
/
"是表达式开始和结束的标记
。
1 基本匹配
- 正则表达式其实就是在执⾏搜索时的格式,它由⼀些字⺟和数字组合⽽成。
- 例如:⼀个正则表达式
the
,它表示⼀个规则:由字⺟t
开始,接着是h
,再接着是e
。
- 例如:⼀个正则表达式
"the" => The fat cat sat on the mat.
- 正则表达式
123
匹配字符串123
。它逐个字符的与输⼊的正则表达式做⽐较。 - 正则表达式是
⼤⼩写敏感的
,所以The
不会匹配the
。
"The" => The fat cat sat on the mat.
2 元字符
- 正则表达式
主要依赖于元字符
。 - 元字符不代表他们本身的字⾯意思,
他们都有特殊的含义。
- ⼀些元字符写在⽅括号中的时候有⼀些特殊的意思。以下是⼀些元字符的介绍:
元字符 | 描述 |
---|---|
. |
句号匹配任意单个字符除了换⾏符 |
[] |
字符种类。匹配⽅括号内的任意字符 |
[^] |
否定的字符种类。匹配除了⽅括号⾥的任意字符 |
* |
匹配>=0个重复的在*号之前的字符 |
+ |
匹配>=1个重复的+号前的字符 |
? |
标记?之前的字符为可选 |
{n,m} |
匹配num个⼤括号之前的字符或字符集 (n <= num <= m) |
(xyz) |
字符集,匹配与 xyz 完全相等的字符串 |
` | ` |
\ |
转义字符,⽤于匹配⼀些保留的字符 `[ ] ( ) { } . * + ? ^ $ \ |
^ |
从开始⾏开始匹配 |
$ |
从末端开始匹配 |
2.1 锚点
2.1.1 ^ 号
^
⽤来检查匹配的字符串是否在所匹配字符串的开头
。- 例如,在
abc
中使⽤表达式^a
会得到结果a
。但如果使⽤^b
将匹配不到任何结果。因为在字符串abc
中并不是以b
开头。 - 例如,
^(T|t)he
匹配以The
或the
开头的字符串。
- 例如,在
"(T|t)he" => The car is parked in the garage.
"^(T|t)he" => The car is parked in the garage.
2.2.2 $ 号
- 同理于
^
号,$
号⽤来匹配字符是否是最后⼀个
。 - 例如,
(at\.)$
匹配以at.
结尾的字符串。
"(at\.)" => The fat cat. sat. on the mat.
"(at\.)$" => The fat cat. sat. on the mat.
2.2 运算符.
-
.
是元字符中最简单的例⼦。 -
.
匹配任意单个字符(包括空格)
,但不匹配换⾏符
。- 例如,表达式
.ar
匹配⼀个任意字符
后⾯跟
着是a
和r
的字符串。
- 例如,表达式
".ar" => The car parked in the garage.
2.3 字符集(字符组)
-
字符集
也叫做字符类
。 -
⽅括号
[]
⽤来指定⼀个字符集
。 -
在
[]
中使⽤连字符来指定字符集的范围。- 在
[]
中的字符集不关⼼顺序
。
- 在
-
例如,表达式
[Tt]he
匹配the
和The
。
"[Tt]he" => The car parked in the garage.
- ⽅括号的句号
[.]
就表示句号.
- 表达式
ar[.]
匹配ar.
字符串
"ar[.]" => A garage is a good place to park a car.
2.3.1 否定字符集
- ⼀般来说
^
表示⼀个字符串的开头
- 但,它⽤在⼀个⽅括号的开头的时候,
[^]
它表示这个字符集是否定的
。
- 但,它⽤在⼀个⽅括号的开头的时候,
- 例如,表达式
[^c]ar
匹配⼀个后⾯跟着ar
的除了c
以外的任意字符,如sar、gar、par、#ar、&ar……
" [^c]ar" => The car parked in the garage.
2.4 重复次数
- 后⾯跟着元字符
+
、*
or?
的,⽤来指定匹配⼦模式的次数
。- 这些元字符在不同的情况下有着不同的意思。
*
和+
限定符都是贪婪
的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
2.4.1 * 号
*
号匹配那些在*
之前的字符出现⼤于等于0 次
的字符。
*
和+
限定符都是贪婪
的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
- 例如,表达式
a*
匹配0或更多个以a开头的字符
。 - 表达式
[a-z]*
匹配⼀个⾏中所有以⼩写字⺟开头的字符串
。
"[a-z]*" => The car parked in the garage #21.
*
字符和.
字符搭配,可以匹配所有的字符.*
。*
和\s(表示匹配空格的符号)
连起来⽤,如表达式\s*cat\s*
匹配0或更多个空格开头、0或更多个空格结尾的cat字符串
。
"\s*cat\s*" => The fat cat sat on the concatenation.
2.4.2 + 号
+
号匹配那些在+
号之前出现 >=1 次
的字符。- 例如,表达式
c.+t
匹配以⾸字⺟ c 开头以 t 结尾,中间跟着⾄少⼀个字符的字符串
。
- 例如,表达式
"c.+t" => The fat cat sat on the mat.
2.4.3 ? 号
- 在正则表达式中,标记在元字符
?
前⾯的字符为可选
,即出现 0 或 1 次
。- 例如,表达式
[T]?he
匹配字符串he
和The
。
- 例如,表达式
"[T]he" => The car is parked in the garage.
"[T]?he" => The car is parked in the garage.
2.5 { } 号
- 在正则表达式中
{}
是⼀个量词
,常⽤来限定⼀个或⼀组字符可以重复出现的次数
。- 例如, 表达式
[0-9]{2,3}
匹配最少 2 位最多 3 位 0~9 的数字
。
- 例如, 表达式
"[0-9]{2,3}" => The number was 9.9997 but we rounded it off to 10.0.
可以省略第⼆个参数
。- 例如,
[0-9]{2,}
匹配⾄少两位 0~9 的数字
。
- 例如,
"[0-9]{2,}" => The number was 9.9997 but we rounded it off to 10.0.
区别两个正则表达式,上式是
{2,}
下式是{2}
"[0-9]{2}" => The number was 9.99 97 but we rounded it off to 10.0.
- 如果逗号也省略掉则表示重复固定的次数。
- 例如,
[0-9]{3}
匹配三位0~9的数字
- 例如,
"[0-9]{3}" => The number was 9.9997 but we rounded it off to 10.0.
2.6 | 或运算符
- 或运算符
|
就表示或
,⽤作判断条件
。- 例如
(T|t)he|car
匹配(T|t)he
或car
- 例如
"(T|t)he|car" => The car is parked in the garage.
2.7 (...) 特征标群
特征标群
是⼀组写在(...)
中的子模式
。(...)
中包含的内容将会被看成⼀个整体
,和数学中⼩括号()
的作⽤相同。- 例如, 表达式
(ab)*
匹配连续出现 0 或更多个 ab 的字符串
。 - 如果没有使⽤
(...)
,那么表达式ab*
将匹配连续出现 0 或更多个 b
。
- 例如, 表达式
- 再⽐如之前说的
{}
是⽤来表示前⾯⼀个字符出现指定次数。 - 但如果在
{}
前加上特征标群(...)
则表示整个标群内的字符重复 n 次
。 - 我们还可以在
()
中⽤ 或字符|
表示或。- 例如,
(c|g|p)ar
匹配car
或gar
或par
- 例如,
"(c|g|p)ar" => The car is parked in the garage.
2.8 \ 转义符号
-
反斜线
\
在表达式中⽤于转义紧跟其后的字符。⽤于指定{ } [ ] / \ + * . $ ^ | ?
这些特殊字符。 -
如果想要匹配这些特殊字符则要在其前⾯加上反斜线
\
。- 但是!!!
\
在字符组[]
内部无效!!!
-
例如
.
是⽤来匹配除换⾏符外的所有字符的。如果想要匹配句⼦中的.
则要写成\.
-
以下这个例⼦的
\.?
是选择性匹配.
"(f|c|m)at\.?" => The fat cat sat on the mat.
"ega.att.com" => megawatt.compu ting wwega.att.comzz
"ega\.att\.com" => megawatt.compu ting wwega.att.comzz
进阶
- 正则表达式中"
/
"是表达式开始和结束的标记
。
1 简写字符集
正则表达式提供⼀些常⽤的字符集简写。如下:
简写 | 功能 |
---|---|
. |
除换⾏符外的所有字符(包括空格) |
\w |
匹配所有字⺟数字,等同于 [a-zA-Z0-9_] |
\W |
匹配所有⾮字⺟数字,即符号,等同于: [^\w] |
\d |
匹配数字,即 [0-9] |
\D |
匹配⾮数字,即 [^\d] |
\s |
匹配所有空格字符,等同于: [\t\n\f\r\p{Z}] |
\S |
匹配所有⾮空格字符: [^\s] |
\f |
匹配⼀个换⻚符 |
\n |
匹配⼀个换⾏符 |
\r |
匹配⼀个回⻋符 |
\t |
匹配⼀个制表符 |
\v |
匹配⼀个垂直制表符 |
\p |
匹配 CR/LF(等同于 \r\n ),⽤来匹配 DOS ⾏终⽌符 |
2 标志
- js中使用正则对象:
new RegExp("模式"[,"标记"]))
pattern(模式)
表示正则表达式的文本flags(标志)
表示i
(忽略大小写)g
(全文查找出现的所有匹配字符)m
(多行查找)gi
(全文查找、忽略大小写)ig
(全文查找、忽略大小写)
2.1 i 忽略大小写(Case Insensitive)
- 修饰语
i
⽤于忽略⼤⼩写。 - 例如,表达式
/The/gi
表示在全局
搜索The
,- 其中的
i
将其条件修改为忽略⼤⼩写,则变成搜索the
和The
,g
表示全局搜索
。
- 其中的
"/The/" => The fat cat sat on the mat.
"/The/gi" => The fat cat sat on the mat.
2.2 g 全局搜索 (Global search)
- 修饰符
g
常⽤于执⾏⼀个全局搜索匹配
,即“不仅仅返回第⼀个匹配的,⽽是返回全部”
。- 例如,表达式
/.(at)/g
表示搜索 任意字符(除了换⾏)+ at
,并返回全部结果
。
- 例如,表达式
"/.(at)/" => The fat cat sat on the mat.
"/.(at)/g" => The fat cat sat on the mat.
2.3 m 多行查找(Multiline)
- 多⾏修饰符
m
常⽤于执⾏⼀个多⾏匹配
。 - 像之前介绍的
(^,$)
⽤于检查格式是否是在待检测字符串的开头或结尾
。但我们如果想要它在每⾏的开头和结尾⽣效,我们需要⽤到``多⾏修饰符 m` 。- 例如,表达式 ``/at(.)?$/gm
表示
⼩写字符 a 后跟⼩写字符 t ,末尾可选除换⾏符外任意字符`。
- 例如,表达式 ``/at(.)?$/gm
- 根据
m
修饰符,以下例子表达式匹配每⾏的结尾:
"/.at(.)?$/" => The fat
cat sat
on the mat.
"/.at(.)?$/gm" => The fat
cat sat
on the mat.
3 贪婪匹配与惰性匹配 (Greedy vs lazy matching)
*
和+
限定符都是贪婪
的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
- 正则表达式
默认
采⽤贪婪匹配模式
,在该模式下意味着会匹配尽可能⻓的⼦串
。 - 我们可以使⽤
?
将贪婪匹配模式转化为惰性匹配模式
。
"/(.*at)/" => The fat cat sat on the mat.
"/(.*?at)/" => The fat cat sat on the mat.
结尾(推荐正则表达式网站)
正则表达式用在比较复杂的情况时,就会比较头疼,多试试吧。这里给出我平时使用正则表达式的3个网站:
学习正则表达式的网站:
测试正则表达式的平台:
参考资料
[2] 正则表达式-菜鸟教程
Java的正则流派
//TODO 待学习……