正则表达式学习

正则表达式学习

  • 工具
    • regexr:http://regexr.com/
    • Regex Tester:http://deerchao.net/tools/regex_tester/index.htm
    • regexbuddy:https://www.regexbuddy.com/
    • Javascript正则表达式在线测试工具:http://www.regexpal.com/
    • regex101:https://www.regex101.com/
    • 正则图示:https://regexper.com
  • 入门
    • Windows/Dos下用于文件查找的通配符(wildcard),也就是*和?
    • \b是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就是单词的分界处
      • \bhi\b 精确地查找hi这个单词
      • \bhi\b.*\bLucy\b 先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词
      • 0\d\d-\d\d\d\d\d\d\d\d 以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字
      • 0\d{2}-\d{8} \d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)
  • 元字符
    • . 匹配除换行符以外的任意字符
    • \w 匹配字母或数字或下划线或汉字
    • \s 匹配任意的空白符
    • \d 匹配数字
    • \D 匹配非数字
    • \b 匹配单词的开始或结束
    • ^ 匹配字符串的开始
    • $ 匹配字符串的结束
    • \n 换行符
    • \r 回车
  • POSIX字符
    • [:alnum:]
    • [:alpha:]
    • [:blank:]
    • [:digit:]
    • [:lower:]
    • [:upper:]
    • [:punct:]
    • [:space:]
  • 重复
    • * 重复零次或更多次
    • + 重复一次或更多次
    • ? 重复零次或一次
    • {n} 重复n次
    • {n,} 重复n次或更多次
    • {n,m} 重复n到m次
  • 字符转义
    • unibetter\.com匹配unibetter.com
    • C:\\Windows匹配C:\Windows
  • 字符类
    • [aeiou]就匹配任何一个英文元音字母
    • [.?!]匹配标点符号(.或?或!)
    • [0-9]代表的含意与\d就是完全一致的:一位数字
    • [a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)
    • \(?0\d{2}[) -]?\d{8}。这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或02912345678,“(”和“)”也是元字符,后面的分组节里会提到,所以在这里需要使用转义。
  • 分枝条件(或)
  • 分组
    • 用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了
    • 正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开
    • (\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})
    • IP地址匹配表达式2:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
  • 反义
    • \W 匹配任意不是字母,数字,下划线,汉字的字符
    • \S 匹配任意不是空白符的字符
    • \D 匹配任意非数字的字符
    • \B 匹配不是单词开头或结束的位置
    • [^x] 匹配除了x以外的任意字符
    • [^aeiou] 匹配除了aeiou这几个字母以外的任意字符
  • 后向引用
    • 后向引用用于重复搜索前面某个分组匹配的文本。例如,\1代表分组1匹配的文本。
    • \b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty
    • (exp) 匹配exp,并捕获文本到自动命名的组里
    • (?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
    • (?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
    • 零宽断言 (?=exp) 匹配exp前面的位置
    • (?<=exp) 匹配exp后面的位置
    • (?!exp) 匹配后面跟的不是exp的位置
    • (?<!exp) 匹配前面不是exp的位置
    • 注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读
  • 零宽断言
    • 像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言
    • \b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。
    • (?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
  • 负向零宽断言
    • 零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
    • 我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
  • 贪婪与懒惰
    • *? 重复任意次,但尽可能少重复
    • +? 重复1次或更多次,但尽可能少重复
    • ?? 重复0次或1次,但尽可能少重复
    • {n,m}? 重复n到m次,但尽可能少重复
    • {n,}? 重复n次以上,但尽可能少重复
    • 例:a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。
posted @ 2018-08-29 14:53  俊学之道  阅读(147)  评论(0编辑  收藏  举报