接触正则表达式

这两天学习了下正则表达式，现在来稍微归纳一下：

一些长常见的元字符：

. 匹配除换行符外的所有字符

\S 注意是大写的S，匹配不是空白符的任意字符。

\w匹配字母或数字或下划线或汉字（我试验下了，发现3.x版本可以匹配汉字，但2.x版本不可以）

\d匹配数字

\b匹配单词的开始或结束　　　　（附：大小写表示相反的意思：\s - 匹配任意的空白符，\D - 匹配任意非数字的字符\B - 匹配不是单词开头或结束的位置

　　　　　　　　　　　　　　　　　　　\W - 匹配任意不是字母，数字，下划线，汉字的字符

　　　　　　　　　　　　　　　　　　[a]的反义是[^a]，表示除a以外的任意字符。[^abcd]就是除abcd以外的任意字符。）

^匹配字符串的开始

$匹配字符串的结束

（表示重复类的）

*它前面的内容可以重复零次或者更多次

+它前面的内容可以重复一次或更多次

？重复零次或者一次（一般表示可有可无的符号）

{n}重复n次

{n,}重复n次以上

{a,b}重复a到b次

[] 这个是罗列法，只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)。

注意它是匹配括号里面任意一个

|这个相当于python中的or，它连接的两个表达式，只要满足其中之一，就会被算作匹配成功。

使用“|”时，要特别提醒注意的是不同条件之间的顺序。匹配时，会按照从左往右的顺序，一旦匹配成功就停止验证后面的规则。假设要匹配的电话号码还有可能是任意长度的数字（如一些特殊的服务号码），你应该把 |\d+ 这个条件加在表达式的最后。如果放在最前面，某些数据就可能会被优先匹配为这一条件。

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

posted @ 2017-02-07 16:29 汪神阅读(176) 评论(0) 收藏举报

刷新页面返回顶部