Java正则表达式的总结

Java正则表达式,可以用于很多类型的文本处理, 如匹配,搜索,提取和分析结构化内容.

判断用户的输入是否符合实际需求。

匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

1.字符类([]只能表示一个字符，不能表示多个,如[ab]表示ab中的一个而不是表示连起来的ab)

. 任意一个字符

[abc] a、b、c中的任意一个

[^abc] a、b、c之外的任意字符

[a-zA-Z] a到z或A到Z中的任意一个字符

[abc[hij]] 相当于[abchij]

[a-z&&[hij]] a-z与hij的交，hij中的一个

\s 空白（空格，tab，换行，换页，回车）

\S 非空白（[^\s]）

\d 数字0-9

\D 非数字[^0-9]

\w 词字符[a-zA-Z0-9]

\W 非词字符[^\w]

2.逻辑操作符

XY Y在X后面

X|Y X或Y

(X) 组，可以用group(int group)方法来获得相应的组，组号为0表示整个表达式，组号为1表示第一队括起来的组，依此类推

3.量词

? 0个或1个

+ 至少一个

* 0个或多个

X{n} 恰好n个X

X{n,} 至少n个X

X{n,m} n到m个X

4.匹配模式

有三种匹配模式：

(1)贪婪型

默认都是贪婪的，比如有字符串abcabc，当使用正则表达式(.*c)时只能匹配到abcabc,而不是abc

(2)勉强型

用?表示，加在量词后面。对于字符串abcabc，使用正则表达式(.*?c)，?表示勉强型，表示匹配满足模式所需的最少字符，可以匹配到两个abc

(3)占有型

只在java中能用，防止回溯,用+表示，加在量词后面

5.用法

java中编写正则表达式要注意转义

(1)直接使用String类的matches()方法，效率较低

(2)先用Pattern.compile()方法编译正则表达式

Pattern p = Pattern.compile(regex)

接下来使用Pattern对象的matcher()方法，生成一个Matcher对象

Matcher m = p.matcher(input),input为字符串，可以为""，使用""可以为循环提供一定的性能优化，可以在创建Matcher对象后用reset()重置字符串

public static void main(String[] args) {
// 要验证的字符串
String str = "service@xsoftlab.net";
// 邮箱验证规则
String regEx = "[a-zA-Z_]{1,}[0-9]{0,}@(([a-zA-z0-9]-*){1,}\.){1,3}[a-zA-z\-]{1,}";
// 编译正则表达式
Pattern pattern = Pattern.compile(regEx);
// 忽略大小写的写法
// Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(str);
// 字符串是否与正则表达式相匹配
boolean rs = matcher.matches();
System.out.println(rs);
}

(3)matcher.find()可用来查找多个匹配，如可用

while(m.find()){

System.out.print(m.group());

}

来查找所有匹配的字符串。

matcher.find(i)表示从位置i开始匹配

实例：

 20 只能输入汉字："^[\u4e00-\u9fa5]{0,}$"
 21 验证Email地址："^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$"。

常用正则表达式

规则	正则表达式语法
一个或多个汉字	^[\u0391-\uFFE5]+$
邮政编码	^[1-9]\d{5}$
QQ号码	^[1-9]\d{4,10}$
邮箱	^[a-zA-Z_]{1,}[0-9]{0,}@(([a-zA-z0-9]-*){1,}\.){1,3}[a-zA-z\-]{1,}$
用户名（字母开头 + 数字/字母/下划线）	^[A-Za-z][A-Za-z1-9_-]+$
手机号码	^1[3\|4\|5\|8][0-9]\d{8}$
URL	^((http\|https)://)?([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
18位身份证号	^(\d{6})(18\|19\|20)?(\d{2})([01]\d)([0123]\d)(\d{3})(\d\|X\|x)?$

转义字符：

特别字符

说明

$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 ‘\n' 或 ‘\r'。要匹配 $ 字符本身，请使用 \$。

( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $和$

* 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。

+ 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。

. 匹配除换行符 \n之外的任何单字符。要匹配 .，请使用 \。

[ ] 标记一个中括号表达式的开始。要匹配 [，请使用 \[。

? 匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。

\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， ‘n' 匹配字符 ‘n'。'\n' 匹配换行符。序列 ‘\\' 匹配 “\”，而 ‘\(' 则匹配 “(”。

^ 匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符本身，请使用 \^。

{ } 标记限定符表达式的开始。要匹配 {，请使用 \{。

| 指明两项之间的一个选择。要匹配 |，请使用 \|。

posted on 2018-03-15 19:57 做个快乐的自己阅读(292) 评论(0) 收藏举报

刷新页面返回顶部

常用正则表达式

公告