正则表达式（1.语法）

1.正则表达式：

　　- 一种灵活而强大的文本处理工具

　　- 大部分编程语言，数据库，文本编辑器，开发环境都支持正则表达式。

　　- 正则表达式描述了一种规则，通过这个规则可以匹配一类字符串

2.测试正则的工具：RegexBuddy

3.正则表达式的语法：

　　1.普通字符：字母，数字，下划线，以及没有特殊定义的标点符号，都是普通字符。表达式中的普通字符，在匹配字符串的时候，

　　　　　　　　匹配与之相同的一个字符。

　　2.转义字符：\n　　代表换行符

　　　　　　　　\t　　制表符

　　　　　　　　\\　　代表\本身

　　　　　　　　\^　　代表^（例子）

　　3.标准字符集合

　　　　- 能够和多种字符匹配的表达式

　　　　- 注意区分大小写，大写是相反的意思

　　　　\d：任意一个数字，0~9中的任意一个

　　　　\w：任意一个字母或者数字或者下划线，也就是A~Z,a~z,0~9,_，中任意一个

　　　　\s：包括空格，制表符，换行符等空白字符的其中任意一个

　　　　.：可以匹配任意一个字符，如果要匹配包括\n在内的所有字符，一般使用[\s\S]

　　4.自定义字符集合

　　　　- []方括号匹配方式，能够匹配方括号中任意一个字符

　　　　　　[ab5@]：匹配a或b或5或者@

　　　　　　[^abc]：匹配a，b，c之外的任意一个字符

　　　　　　[f-k]：匹配f~k之间的任意一个字母

　　　　　　[^A-F0-3]：匹配A~F，0~3之外的任意一个字符

　　　　- 正则表达式的特殊符号，被包含到中括号里面，则失去特殊含义，除了^和-

　　　　- 标准字符集合，除了小数点(.)，如果被包含于中括号中，自定义字符集合将包含该集合

　　　　　　例如：[\d.\-+] 则代表数字，小数点，+号和-号

　　5.量词

　　　　{n}：表达式重复n次

　　　　{m，n}：表达式最少重复m次，最多重复n次

　　　　{m，}：表达式至少重复m次

　　　　？：匹配表达式0次或者1次，相当于{0，1}

　　　　+：表达式至少出现1次，相当于{1，}

　　　　*：表达式不出现，或者出现任意次，相当于{0，}

　　　　　　- 贪婪模式：匹配字符越多越好，这是默认的。例如\d{3，5}，会优先匹配5个字符。

　　　　　　- 非贪婪模式：匹配字符越少越好，修饰匹配次数的特殊符号后在加上一个？，例如\d{3，5}？，则会优先匹配3个字符。

　　6.字符边界

　　　　- 字符边界标记匹配的是一个位置而不是一个字符，这里的位置是指符合某种条件的位置

　　　　　　^：与字符串开始的地方匹配例：i love u 想要匹配i 可以写^i（表示i的左边是一个字符串开始的地方）

　　　　　　$：与字符串结束的地方匹配例：i love u uu u 想要匹配最后一个u 可以写u$（表示u的右边是一个字符串结束的地方）

　　　　　　\b：匹配一个单词边界：意思就是前面的字符和后面的字符不全是\w 例：正则（yangf\b）可以匹配 yangf 123yangf yangf.23 即在yangf后面不是\w的都可以。

　　　　　　　　　　　　　　　　　注意，不全是的含义就是全是和全不是都不匹配。

　　7.正则表达式的匹配模式

　　　　- IGNORECASE 忽略大小写模式

　　　　　　- 匹配时忽略大小写

　　　　　　- 默认情况下，正则是区分大小写的

　　　　- SINGLELINE 单行模式

　　　　　　- 整个文本看做一个字符串，只有一个开头一个结尾

　　　　　　- 使小数点可以匹配包含换行符(\n)在内的任意字符

　　　　- MULTILINE 多行模式

　　　　　　- 每行都是一个字符串，都有开头和结尾

　　　　　　- 在指定了MULTILINE之后，如果需要仅匹配字符串的开始和结束位置，可以使用\A和\Z

　　8.选择符和分组

　　　　- |（分支结构）：左右两边表达式之间 “或”关系，匹配左边或者右边

　　　　- （）捕获组：　　1.在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰

　　　　　　　　　　　　　2.取匹配结果的时候，括号中的表达式匹配到的内容可以被单独得到

　　　　　　　　　　　　　3.每一对括号会分配一个编号，使用（）的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为0的第一个捕获是

　　　　　　　　　　　　　　由整个正则表达式模式匹配的文本。

　　　　- （？：Expression）非捕获组：　一些表达式中，不得不使用（），但又不需要保存（）中子表达式匹配的内容，这时可以用非捕获组来抵消使用（）

　　　　　　　　　　　　　　　　带来的副作用。例如：(？:[a-z]{2})，这样不会把捕获到的内容放到内存中。

　　　　- 反向引用：(\nnn) \nnn代表第nnn个括号代表的内容，以左括号为准。例：（1（2）（3））

　　　　　　- 每一对（）会分配一个编号，使用（）的捕获根据左括号的顺序从1开始自动编号

　　　　　　- 通过反向引用，可以对分组已捕获的字符串进行引用例：从gogo goto toto dodo todo 中获取gogo toto dodo 的正则 ([a-z]{2})\1，([a-z]{2})捕获到go to do，

　　　　　　　　　　　　反向引用\1，再重复一次。

　　9.预搜索（零宽断言）

　　　　- 只进行子表达式的匹配，匹配内容不计入最终的匹配结果，是零宽度。

　　　　- 这个位置应该符合某个条件。判断当前位置的前后字符，是否符合指定条件。

　　　　- 正则表达式匹配过程中，如果子表达式匹配到的是字符内容而不是字符位置，并且被保存到最终的匹配结果中，那么就认为这个子表达式是占有字符的。如果子表达式匹配的仅仅

　　　　　是位置，或者匹配内容不保存到最终的匹配结果中，那么就认为这个子表达式是零宽度的。占有字符还是零宽度，是针对匹配的内容是否保存到最终的匹配结果中而言的。

　　　　　　1.（？=exp）：断言自身出现的位置的后面能匹配表达式exp 例：从going doing eating中匹配go do eat的正则[a-z]+(?=ing)

　　　　　　2.（？<=exp）：断言自身出现的位置的前面能匹配表达式exp

　　　　　　3.（？！exp）：断言此位置的后面不能匹配表达式exp

　　　　　　4.（？<！exp）：断言此位置的前面不能匹配表达式exp

posted @ 2017-05-09 23:40 noooooob 阅读(306) 评论(0) 收藏举报

刷新页面返回顶部

noooooob

正则表达式（1.语法）

公告