Java正则表达式,可以用于很多类型的文本处理, 如匹配,搜索,提取和分析结构化内容.
判断用户的输入是否符合实际需求。
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
1.字符类([]只能表示一个字符,不能表示多个,如[ab]表示ab中的一个而不是表示连起来的ab)
. 任意一个字符
[abc] a、b、c中的任意一个
[^abc] a、b、c之外的任意字符
[a-zA-Z] a到z或A到Z中的任意一个字符
[abc[hij]] 相当于[abchij]
[a-z&&[hij]] a-z与hij的交,hij中的一个
\s 空白(空格,tab,换行,换页,回车)
\S 非空白([^\s])
\d 数字0-9
\D 非数字[^0-9]
\w 词字符[a-zA-Z0-9]
\W 非词字符[^\w]
2.逻辑操作符
XY Y在X后面
X|Y X或Y
(X) 组,可以用group(int group)方法来获得相应的组,组号为0表示整个表达式,组号为1表示第一队括起来的组,依此类推
3.量词
? 0个或1个
+ 至少一个
* 0个或多个
X{n} 恰好n个X
X{n,} 至少n个X
X{n,m} n到m个X
4.匹配模式
有三种匹配模式:
(1)贪婪型
默认都是贪婪的,比如有字符串abcabc,当使用正则表达式(.*c)时只能匹配到abcabc,而不是abc
(2)勉强型
用?表示,加在量词后面。对于字符串abcabc,使用正则表达式(.*?c),?表示勉强型,表示匹配满足模式所需的最少字符,可以匹配到两个abc
(3)占有型
只在java中能用,防止回溯,用+表示,加在量词后面
5.用法
java中编写正则表达式要注意转义
(1)直接使用String类的matches()方法,效率较低
(2)先用Pattern.compile()方法编译正则表达式
Pattern p = Pattern.compile(regex)
接下来使用Pattern对象的matcher()方法,生成一个Matcher对象
Matcher m = p.matcher(input),input为字符串,可以为"",使用""可以为循环提供一定的性能优化,可以在创建Matcher对象后用reset()重置字符串
- public static void main(String[] args) {
- // 要验证的字符串
- String str = "service@xsoftlab.net";
- // 邮箱验证规则
- String regEx = "[a-zA-Z_]{1,}[0-9]{0,}@(([a-zA-z0-9]-*){1,}\.){1,3}[a-zA-z\-]{1,}";
- // 编译正则表达式
- Pattern pattern = Pattern.compile(regEx);
- // 忽略大小写的写法
- // Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
- Matcher matcher = pattern.matcher(str);
- // 字符串是否与正则表达式相匹配
- boolean rs = matcher.matches();
- System.out.println(rs);
- }
(3)matcher.find()可用来查找多个匹配,如可用
while(m.find()){
System.out.print(m.group());
}
来查找所有匹配的字符串。
matcher.find(i)表示从位置i开始匹配
实例:
20 只能输入汉字:"^[\u4e00-\u9fa5]{0,}$"
21 验证Email地址:"^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$"。
常用正则表达式
规则 | 正则表达式语法 |
一个或多个汉字 | ^[\u0391-\uFFE5]+$ |
邮政编码 | ^[1-9]\d{5}$ |
QQ号码 | ^[1-9]\d{4,10}$ |
邮箱 | ^[a-zA-Z_]{1,}[0-9]{0,}@(([a-zA-z0-9]-*){1,}\.){1,3}[a-zA-z\-]{1,}$ |
用户名(字母开头 + 数字/字母/下划线) | ^[A-Za-z][A-Za-z1-9_-]+$ |
手机号码 | ^1[3|4|5|8][0-9]\d{8}$ |
URL | ^((http|https)://)?([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ |
18位身份证号 | ^(\d{6})(18|19|20)?(\d{2})([01]\d)([0123]\d)(\d{3})(\d|X|x)?$ |
转义字符:
特别字符
说明
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n' 或 ‘\r'。要匹配 $ 字符本身,请使用 \$。
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 和和。
* 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。
+ 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。
. 匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。
[ ] 标记一个中括号表达式的开始。要匹配 [,请使用 \[。
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n' 匹配字符 ‘n'。'\n' 匹配换行符。序列 ‘\\' 匹配 “\”,而 ‘\(' 则匹配 “(”。
^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。
{ } 标记限定符表达式的开始。要匹配 {,请使用 \{。
| 指明两项之间的一个选择。要匹配 |,请使用 \|。