正则表达式-字符表

 

点号

匹配任何单个字符(注:点号在字符组内不算元字符)

*

星号

表示之前的元素出现任意次数或0次

?

问号

前面元素出现0次或1次

+

加号

前面元素出现1次以上

-

连字符

注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围;

如果出现在字符组的开头,则只能表示连字符本身

^

脱字符

表示开头。注意:^在字符组的头部,将转换成排除型字符

$

美元符

表示结尾。

\

转义符

 

[ ]

字符组

范围描述符。[a-z]表示从a到z之间的任意一个。

\w

 

英文字母和数字。即[0-9 A-Z a-z]。

\W

 

非英文字母和数字

\s

 

空字符,即[\t\n\r\f]。

\S 

 

非空字符。

\d

 

数字,即[0-9]。

\D

 

非数字。

\b

 

词边界字符(在范围描述符外部时),表示为单词的分界符

\B

 

非词边界字符

{n}

 

前面的元素字符出现n次

{m,n}

 

前面的元素最少出现m次,最多出现n次

|

 

选择符

( )

 

群组,子表达式

 

 

 

 

\n换行

\r回车

\f翻页

\t 制表符

\.

 

.版本 2

 

中文编码范围,中文汉字的正则也许用的着。

双字节字符编码范围:

一、 GBK (GB2312/GB18030)

\x00-\xff          →GBK双字节编码范围

\x20-\x7f         →ASCII

\xa1-\xff 中文 →gb2312 取出所有中文

\x80-\xff 中文 →gbk  取出所有中文

 

二、 UTF-8 (Unicode)

 

\u4e00-\u9fa5     →(中文) 取出所有中文

\x3130-\x318F    →(韩文)  取出所有韩文

\xAC00-\xD7A3   →(韩文)  取出所有韩文

\u0800-\u4e00   →(日文)   取出所有日文

posted @ 2014-11-27 14:22  wikiki  阅读(1136)  评论(0编辑  收藏  举报