Java正则表达式,可以用于很多类型的文本处理, 如匹配,搜索,提取和分析结构化内容.

判断用户的输入是否符合实际需求。

 

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

1.字符类([]只能表示一个字符,不能表示多个,如[ab]表示ab中的一个而不是表示连起来的ab)

. 任意一个字符

[abc] a、b、c中的任意一个

[^abc] a、b、c之外的任意字符

[a-zA-Z] a到z或A到Z中的任意一个字符

[abc[hij]] 相当于[abchij]

[a-z&&[hij]] a-z与hij的交,hij中的一个

\s 空白(空格,tab,换行,换页,回车)

\S 非空白([^\s])

\d  数字0-9

\D 非数字[^0-9]

\w  词字符[a-zA-Z0-9]

\W 非词字符[^\w]

 

2.逻辑操作符

XY Y在X后面

X|Y X或Y

(X) 组,可以用group(int group)方法来获得相应的组,组号为0表示整个表达式,组号为1表示第一队括起来的组,依此类推

 

3.量词

? 0个或1个

+ 至少一个

* 0个或多个

X{n} 恰好n个X

X{n,} 至少n个X

X{n,m} n到m个X

 

4.匹配模式

有三种匹配模式:

(1)贪婪型

默认都是贪婪的,比如有字符串abcabc,当使用正则表达式(.*c)时只能匹配到abcabc,而不是abc

(2)勉强型

用?表示,加在量词后面。对于字符串abcabc,使用正则表达式(.*?c),?表示勉强型,表示匹配满足模式所需的最少字符,可以匹配到两个abc

(3)占有型

只在java中能用,防止回溯,用+表示,加在量词后面

 

5.用法

java中编写正则表达式要注意转义

(1)直接使用String类的matches()方法,效率较低

(2)先用Pattern.compile()方法编译正则表达式

Pattern p = Pattern.compile(regex)

接下来使用Pattern对象的matcher()方法,生成一个Matcher对象

Matcher m = p.matcher(input),input为字符串,可以为"",使用""可以为循环提供一定的性能优化,可以在创建Matcher对象后用reset()重置字符串

  1. public static void main(String[] args) {  
  2.     // 要验证的字符串  
  3.     String str = "service@xsoftlab.net";  
  4.     // 邮箱验证规则  
  5.     String regEx = "[a-zA-Z_]{1,}[0-9]{0,}@(([a-zA-z0-9]-*){1,}\.){1,3}[a-zA-z\-]{1,}";  
  6.     // 编译正则表达式  
  7.     Pattern pattern = Pattern.compile(regEx);  
  8.     // 忽略大小写的写法  
  9.     // Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);  
  10.     Matcher matcher = pattern.matcher(str);  
  11.     // 字符串是否与正则表达式相匹配  
  12.     boolean rs = matcher.matches();  
  13.     System.out.println(rs);  
  14. }  

(3)matcher.find()可用来查找多个匹配,如可用

while(m.find()){

System.out.print(m.group());

}

来查找所有匹配的字符串。

matcher.find(i)表示从位置i开始匹配

 

 

实例:

 20 只能输入汉字:"^[\u4e00-\u9fa5]{0,}$"
 21 验证Email地址:"^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$"。

常用正则表达式

规则 正则表达式语法
一个或多个汉字 ^[\u0391-\uFFE5]+$
邮政编码 ^[1-9]\d{5}$
QQ号码 ^[1-9]\d{4,10}$
邮箱 ^[a-zA-Z_]{1,}[0-9]{0,}@(([a-zA-z0-9]-*){1,}\.){1,3}[a-zA-z\-]{1,}$
用户名(字母开头 + 数字/字母/下划线) ^[A-Za-z][A-Za-z1-9_-]+$
手机号码 ^1[3|4|5|8][0-9]\d{8}$
URL ^((http|https)://)?([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
18位身份证号 ^(\d{6})(18|19|20)?(\d{2})([01]\d)([0123]\d)(\d{3})(\d|X|x)?$

转义字符:

特别字符

说明

$          匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n' 或 ‘\r'。要匹配 $ 字符本身,请使用 \$。

( )         标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 和。

*           匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。

+          匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。

.           匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。

[ ]         标记一个中括号表达式的开始。要匹配 [,请使用 \[。

?          匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。

\           将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n' 匹配字符 ‘n'。'\n' 匹配换行符。序列 ‘\\' 匹配 “\”,而 ‘\(' 则匹配 “(”。

^         匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。

{ }       标记限定符表达式的开始。要匹配 {,请使用 \{。

|          指明两项之间的一个选择。要匹配 |,请使用 \|。

 posted on 2018-03-15 19:57  做个快乐的自己  阅读(276)  评论(0编辑  收藏  举报