正则表达
正则表达式
正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。
在JDK1.4 之前需要单独的引入相关的jar文件,而在JDK1.4后,正则已经默认被JDK所支持,并提供有java.util.regex包,
java.util.regex 包主要包括以下三个类:
-
Pattern 类:
pattern 对象是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式作为它的第一个参数。
-
Matcher 类:
Matcher 对象是对输入字符串进行解释和匹配操作的引擎。与Pattern 类一样,Matcher 也没有公共构造方法。你需要调用 Pattern 对象的 matcher 方法来获得一个 Matcher 对象。
-
PatternSyntaxException:
PatternSyntaxException 是一个非强制异常类,它表示一个正则表达式模式中的语法错误。
引入java.util.regex包的同时也对String类进行了一些修改,使其有方法直接支持正则表达式,通过String类提供的 boolean matches(String regex) 方法实现验证匹配 返回boolean 值
作用:
正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是繁琐的,但它是强大的,利用正则表达式可以方便地实现数据的拆分,替换,验证等操作,有的工作利用正则表达式则会让你的工作效率提高。
-
数据的验证:可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。
-
数据的替换:可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
-
查找特定的字符串:基于模式匹配从字符串中提取子字符串。
正则表达式语法
在其他语言中,\ 表示:我想要在正则表达式中插入一个普通的(字面上的)反斜杠,请不要给它任何特殊的意义。
在 Java 中,\ 表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。
所以,在其他的语言中(如Perl),一个反斜杠 \ 就足以具有转义的作用,而在 Java 中正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在 Java 的正则表达式中,两个 \ \代表其他语言中的一个 \,这也就是为什么表示一位数字的正则表达式是 \d,而表示一个普通的反斜杠是 \\\。
常用的正则标记:
字符: | 匹配单个字符 |
---|---|
a | 表示匹配字母a |
\ | 匹配转义字符"" |
\t | 匹配转义字符”\t“ |
\n | 匹配转义字符"\n" |
#### 一组字符 | #### 任意匹配里面的一个单个字符 |
[xyz] | 字符集。匹配包含的任一字符。例如,"[abc]"匹配"plain"中的"a"。 |
[^xyz] | 反向字符集。匹配未包含的任何字符。例如,"abc"匹配"plain"中"p","l","i","n"。 |
[a-zA-Z] | 字符范围。匹配指定范围内的任何字符。表示全部字母中的任意一个 |
[0-9] | 表示全部数字字母中的任意一个 |
### 边界匹配 | ### 在以后编写JavaScript的时候使用正则时要用到 |
^ | 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与"\n"或"\r"之后的位置匹配。 |
$ | 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与"\n"或"\r"之前的位置匹配。 |
### 简写表达式 | ### 每一位出现的简写标记也只表示一位 |
. | 匹配除"\r\n"之外的任何单个字符。若要匹配包括"\r\n"在内的任意字符,请使用诸如"[\s\S]"之类的模式。 |
\d | 数字字符匹配。等效于 . [0-9]。表示匹配任意的一位数字 |
\D | 非数字字符匹配。等效于 . 0-9。 |
\w | 匹配任何字类字符,包括下划线。与" .[A-Za-z0-9_] "等效。 |
\W | 与任何非单词字符匹配。与"A-Za-z0-9_"等效。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。 表示任意的一位空格 |
\S | 匹配任何非空白字符。与 \f\n\r\t\v 等效。 |
### 数量表示 | ### 之前的所有正则都只是表示一位,如果要想表示多位,则就需要数量表示 |
? | 当此字符紧随任何其他限定符(、+、?、{n}、{n,}、{n,m*})之后时,匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串,而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。例如,在字符串"oooo"中,"o+?"只匹配单个"o",而"o+"匹配所有"o"。 此正则出现0次或1次 |
* | 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配"z"和"zoo"。* 等效于 {0,}。 表示正则出现0次,1次或者多次 |
+ | 一次或多次匹配前面的字符或子表达式。例如,"zo+"与"zo"和"zoo"匹配,但与"z"不匹配。+ 等效于 {1,}。 表示正则出现1次或者多次 |
{n} | n 是非负整数。正好匹配 n 次。例如,"o{2}"与"Bob"中的"o"不匹配,但与"food"中的两个"o"匹配。 |
{n,} | n 是非负整数。至少匹配 n 次。例如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有 o。"o{1,}"等效于"o+"。"o{0,}"等效于"o*"。 |
{n,m} | m 和 n 是非负整数,其中 n <= m。匹配至少 n 次,至多 m 次。例如,"o{1,3}"匹配"fooooood"中的头三个 o。'o{0,1}' 等效于 'o?'。注意:您不能将空格插入逗号和数字之间。 |
### 逻辑表示 | ### 与、或、非 |
正则表达式A正则表达式B | 表示表达式A之后紧跟着表达式B |
正则表达式A|正则表达式B | 表示表达式A或者是表达式B,二者任选一个出现 |
(正则表达式) | 将多个子表达式合成一个表示, 作为一组出现 |
实现字符串的替换
public class JavaAPIDemo{
public static void main(String[] args){
String str = "MLDN&(*@#*(@##@*()Java"; // 要替换的原始数据
// 如果现在由非字母和数字所组成"[^a-zA-Z0-9]" 数量在1个及多个的时候进行替换
String regex = "[^a-zA-Z0-9]+" //正则表达式
System.out.println(str.replaceAll(regex," ")); // 替换 非字母和数字的字符
}
}
执行的结果为:
MLDNJava
字符串的拆分
public class JavaAPIDemo{
public static void main(String[] args){
String str = "a1b22c333d4444e55555f666666g"; // 要替换的原始数据
String regex = "\\d+" //正则表达式 表示任意的一位数字 + 代表出现一次或者多次
String[] result = str.split(regex); //字符串拆分
for(int x = 0; x < result.length;x++){
System.out.println(str.replaceAll(result[x]+"、 ")); // 替换 数字字符
}
}
}
执行的结果为:
a、b、c、d、e、f、g