perl正则表达式
Perl 程序中,正则表达式有三种存在形式
分别是
(1 模式匹配:m/<regexp>/ #平时我们简写 /<regexp>/ ,略去m,
三个参数
/i不区分大小写 /s匹配任何字符 /x添加空格 /o 不重复编译正则表达示
(2 模式替换:s/<pattern>/<replacement>/
/g 进行全局替换 \U 大小写转换,例如s/(fred|barney)/\U$1/gi;
\L 转换小写 \E 影响到剩余的(替换的)字符串
\l 和\u 写形式时(\l 和\u),只作用于下一个字符
(3 模式转化:tr/<pattern>/<replacemnt>/
这三种形式一般都和 =~ 或 !~ 搭配使用,"=~" 表示相匹配(does),"!~" 表示不匹配(doesn't),并在左侧有待处理的标量变量.如果没有该要处理的变量,则默认为处理 $_ 变量中的内容.
表达式中的一些常用模式.
. 匹配除换行符以外的所有字符
x? 匹配 0 次或一次 x 字符串
x* 匹配 0 次或多次 x 字符串,但匹配可能的最少次数
x+ 匹配 1 次或多次 x 字符串,但匹配可能的最少次数
.* 匹配 0 次或多次的任何字符
.+ 匹配 1 次或多次的任何字符
{m} 匹配刚好是 m 个 的指定字符串
{m,n} 匹配在 m个 以上 n个 以下 的指定字符串
{m,} 匹配 m个 以上 的指定字符串
[] 匹配符合 [] 内的字符
[^] 匹配不符合 [] 内的字符
[0-9] 匹配所有数字字符
[a-z] 匹配所有小写字母字符
[^0-9] 匹配所有非数字字符
[^a-z] 匹配所有非小写字母字符
^ 匹配字符开头的字符
$ 匹配字符结尾的字符
\d 匹配一个数字的字符,和 [0-9] 语法一样
\d+ 匹配多个数字字符串,和 [0-9]+ 语法一样
\D 非数字,其他同 \d
\D+ 非数字,其他同 \d+
\w 英文字母或数字的字符串,和 [a-zA-Z0-9] 语法一样
\w+ 和 [a-zA-Z0-9]+ 语法一样
\W 非英文字母或数字的字符串,和 [^a-zA-Z0-9] 语法一样
\W+ 和 [^a-zA-Z0-9]+ 语法一样
\s 空格,和 [\n\t\r\f] 语法一样
\s+ 和 [\n\t\r\f]+ 一样
\S 非空格,和 [^\n\t\r\f] 语法一样
\S+ 和 [^\n\t\r\f]+ 语法一样
\b 匹配以英文字母,数字为边界的字符串
\B 匹配不以英文字母,数值为边界的字符串
a|b|c 匹配符合a字符 或是b字符 或是c字符 的字符串
abc 匹配含有 abc 的字符串
(pattern) () 这个符号会记住所找寻到的字符串,是一个很实用的语法.第一个 () 内所找到的字符串变成 $1, 第二个 () 内所找到的字符串变成 $2
/pattern/i i 这个参数表示忽略英文大小写,也就是在匹配字符串的时候,不考虑英文的大小写问题.
\ 在 pattern 模式中找寻一个特殊字符,正则表达式的特殊字符包括:. \ + * ? [ ^ ] $ ( ) { } = ! < > | :
*? +? ?? 为这三个数量词的非贪婪的类型
括号的特殊用法
(?#text) 忽略括号内的注释文本;
(?:pattern) 与组一致,但匹配时不生成$1,$2,也就是不捕获;
(?imsx:pattern) 与组一致,但匹配时不生成$1,$2,在特定的风格有效期间,内嵌风格匹配修饰符;
(?=pattern) 前向查找声明,如果正则表达式在下一次匹配 pattern 时,就开始匹配,而且不影响匹配效果.如 /\w+(?=\t)/ 将匹配制表符是否恰好在 \w+ 后面出现,并且制表符不添加到 $& 的值中;
(?!pattern) 如果正则表达式在后面不匹配 pattern ,才会开始匹配.如/foo(?!bar)/,只有当出现 foo,并且后面不出现 bar 时才开始匹配;
(?<=pattern) 后向查找声明,只有在 pattern 已经匹配下面的表达式,并且不将 pattern 的结果放入$& 变量中,才匹配下面的语句.如/(?<=\t)\W+/匹配制表符是否恰好在\W+前出现,但又不将制表符送到 $& 中;
(? (?{code}) 表示对 code 的使用是试验性的.如果返回真,就认为是与(?:pattern)断言同一行里的匹配.code 不插入变量.这个断言仅仅在 use re 'eval' 编译指示符时才有效;
(?>pattern) 如果类型锁定在当前位置,就使用单独的 pattern 匹配子字符串.如正则表达式/^(?>a*)ab/永远不会匹配,因为语句(?>a*)将匹配字符串开头所有的 a 字符,并删除与 ab 匹配的字符 a;
(!<=pattern) 非后看声明,与后看声明意思相反;
(!=pattern) 非前看声明,与前看声明意思相反;
(?(condition)yes-pattern|no-pattern) 条件表达式——条件语句或者是一个圆括号中的整数,或者是一个断言;
(?(condition)yes-pattern)
(?imsx) 嵌入风格匹配修饰符.当要把表达式修改符嵌入在变量中,然后把变量用在不指定自己的修饰符的一般规则表达式中;
(?-imsx) 这个断言很有用——后面带任何内容都会关闭修饰符,直到出现另一个嵌入的修饰符.
下面给出一些例子: /perl/ 找到含有 perl 的字符串 /^perl/ 找到开头是 perl 的字符串 /perl$/ 找到结尾是 perl 的字符串 /c|g|i/ 找到含有 c 或 g 或 i 的字符串 /cg{2,4}i/ 找到 c 后面跟着 2个到 4个 g ,再跟着 i 的字符串 /cg{2,}i/ 找到 c 后面跟着 2个以上 g ,再跟着 i 的字符串 /cg{2}i/ 找到 c 后面跟着 2个 g,再跟着 i 的字符串 /cg*i/ 找到 c 后面跟着 0个或多个 g ,再跟着 i 的字符串,如同/cg{0,}i/ /cg+i/ 找到 c 后面跟着一个或多个 g,再跟着 i 的字符串,如同/cg{1,}i/ /cg?i/ 找到 c 后面跟着 0个或是 1个 g ,再跟着 i 的字符串,如同/cg{0,1}i/ /c.i/ 找到 c 后面跟着一个任意字符,再跟着 i 的字符串 /c..i/ 找到 c 后面跟着二个任意字符,再跟着 i 的字符串 /[cgi]/ 找到符合有这三个字符任意一个的字符串 /[^cgi]/ 找到没有这三个字符中任意一个的字符串 /\d/ 找寻符合数字的字符,可以使用/\d+/来表示一个或是多个数字组成的字符串 /\D/ 找寻符合不是数字的字符,可以使用/\D+/来表示一个或是更多个非数字组成的字符串 /\*/ 找寻符合 * 这个字符,因为 * 在常规表达式中有它的特殊意思,所以要在这个特殊符号前加上 \ 符号,这样才会让这个特殊字符失效 /abc/i 找寻符合 abc 的字符串而且不考虑这些字符串的大小写
$str =~ s/INT \(10,0\)/INTEGER (10,0)/; 2个括号前面都要加反斜杠才能匹配成功.
3 正则表达式的八大原则 如果在 Unix 中曾经使用过 sed、awk、grep 这些命令的话,相信对于 Perl 语言中的正则表达式(Regular Expression)不会感到陌生。Perl 语言由于有这个功能,所以对字符串的处理能力非常强。在Perl语言的程序中,经常可以看到正则表达式的运用,在 CGI 程序设计中也不例外。 正则表达式是初学 Perl 的难点所在,不过只要一旦掌握其语法,你就可以拥有几乎无限的模式匹配能力,而且 Perl 编程的大部分工作都是掌握常规表达式。下面给大家介绍几条正则表达式使用过程中的 8 大原则。 正则表达式在对付数据的战斗中可形成庞大的联盟——这常常是一场战争。我们要记住下面八条原则: · 原则1:正则表达式有三种不同形式(匹配(m/ /),替换(s/ / /eg)和转换(tr/ / /))。 · 原则2:正则表达式仅对标量进行匹配( $scalar =~ m/a/; 可以工作; @array =~ m/a/ 将把@array作为标量对待,因此可能不会成功)。 · 原则3:正则表达式匹配一个给定模式的最早的可能匹配。缺省时,仅匹配或替换正则表达式一次( $a = 'string string2'; $a =~ s/string/ /; 导致 $a = 'string 2')。 · 原则4:正则表达式能够处理双引号所能处理的任意和全部字符( $a =~ m/$varb/ 在匹配前把varb扩展为变量;如果 $varb = 'a' $a = 'as',$a =~ s/$varb/ /; 等价于 $a =~ s/a/ /; ,执行结果使 $a = " s" )。 · 原则5:正则表达式在求值过程中产生两种情况:结果状态和反向引用: $a=~ m/pattern/ 表示 $a 中是否有子串 pattern 出现,$a =~ s/(word1)(word2)/$2$1/ 则“调换”这两个单词。 · 原则6:正则表达式的核心能力在于通配符和多重匹配运算符以及它们如何操作。$a =~ m/\w+/ 匹配一个或多个单词字符;$a =~ m/\d/" 匹配零个或多个数字。 · 原则7:如果欲匹配不止一个字符集合,Perl使用 "|" 来增加灵活性。如果输入 m/(cat|dog)/ 则相当于“匹配字符串 cat 或者 dog。 · 原则8:Perl用 (?..) 语法给正则表达式提供扩展功能。