正则指引--字符组
字符组:在同一个位子可能出现的各种字符。
用正则表达式判断数字字符:
re.Search("[0123456789]",charStr) != None
其中[0123456789]以字符串形式给出正则表达式,他是一个字符组,表示可以是0到9的任意一个字符。
Net中Regex.IsMatch(charStr,"[0123456789]");
在默认情况下,Search(Pattern,String)只会判断某个子串能否匹配pattern,只要pattern能匹配String中的一部分,
也认为是匹配成功,为了测整个String是否能匹配pattern,要在pattern两端加上^和$.他们表示定位字符串的起始和结束位置,
这样就能保证,只有是整个String都可以由pattern匹配,才算成功。
像[0123456789]这个字符组,还可以使用范围表示法:[0-9]
在字符组中:“-”表示范围,一般根据字符对应的一个码值,码值小的在“-”前面,大的在后面。
上面的例子中,“-”用来表示范围,并不能匹配横线字符,这一类字符叫做元字符,像[、]、^、$都是元字符。
那么当我们需要匹配这些特殊的元字符的时候,需要进行转义处理。
像“-”字符,如果是紧挨着“[”,会认为是普通字符,其他的情况都是元字符,可以使用“\”,对元字符进行转义:
re.Search("^[0\\-9]$","3") != None //false
上面的“\”字符本身会联合其他的例如“\n \r”等来使用,单独使用也需要“\\”来进行转义。
使用原生字符串: re.Search(r"^[0\-9]$","3") != None ,在字符串前面加上r。就可以不用“\\”来表示"\"了。
排除型字符组:[^...]:表示当前位置,匹配一个没有列出的字符。
[^0-9]:表示匹配一个不是数字的字符
字符组简记法:
常见的有:
\d:[0-9]
\w:[0-9a-zA-Z] 这个还包括一个下划线
\s:[ \t\r\n\v\f]
对应的排除型字符组简记法:
\D :与\d互补
\W :与\w互补
\S :与\s互补
最简单的应用:[\s\S]组合使用,匹配所有的字符。