正则表达式(?=a)是什么意思
(?=a) 代表什么意思!
(?=a)非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。
还有四个和这个相近的:
(?!a)非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。 (?:a)非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。 (?<=a)非获取匹配,反向肯定预查,与正向肯定预查类似,只是方向相反。 (?<!a)非获取匹配,反向否定预查,与正向否定预查类似,只是方向相反。
以上是官方的定义,比较难懂,我用自己的理解翻译了一下:
(?=a) 表示我们需要匹配某样东西的前面。 (?!a) 表示我们需要不匹配某样东西。 (?:a) 表示我们需要匹配某样东西本身。 (?<=a) 表示我们需要匹配某样东西的后面。 (?<!a) 表示我们需要不匹配某样东西,与(?!a)方向相反。
我的翻译可能还是不太容易理解,我们用代码来解释一下!
console.log("我是中国人".replace(/我是(?=中国)/, "rr")) // 输出: 'rr中国人',匹配的是中国前面的'我是' console.log("我是中国人".replace(/(?!中国)/, "rr")) // 输出:'rr我是中国人' console.log("我是中国人".replace(/(?:中国)/, "rr")) // 输出:'我是rr人',匹配'中国'本身 console.log("我是中国人".replace(/(?<=中国)人/, "rr")) // 输出:'我是中国rr',匹配的是中国后面的'人' console.log("我是中国人".replace(/(?<!中国)/, "rr")) // 输出:'rr我是中国人'
Tips:(?!a)和(?<!a)都是输出的 'rr我是中国人',我的理解是,replace替换的时候匹配得是不包含中国的字符串,但是这个字符串又没有,那么js自动给加前面去了。
一些正则需要知道的概念
【分组】:
如果你想要在正则中重复匹配一个字符串,那么可以用一个 () 号给包起来,官方得说法是指定子表达式,也就是分组!
用代码解释就是:
\d{1,3} // 表示匹配1到3位的数字 (\d{1,3}\.){3} // 表示匹配三位数字加上一个英文句号,并且把这个分组(也就是这个匹配规则)重复三次
理解了分组这个概念,再复杂的表达式也可以拆分成几个细的分组来实现。
【后向引用】:
用 () 号创建了一个分组后,匹配这个子表达式的文本可以在表达式或其它程序中作进一步的处理。每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
如果你要重复搜索前面某个分组匹配的文本,可以用 \1 ,含义是,分组1匹配的文本,这种引用方式叫做后向引用。
用代码解释一下:
console.log("oh oh , oh my god!".replace(/\b(\w+)\b\s+\1\b/, "rr")) // 输出:'rr , oh my god!' // \b 匹配一个单词边界,一侧为单词的字符,另外一侧为非单词字符 // \b(\w+)\b,匹配单词开始处和结束处之间的多于一个的字母或数字 // \s+ 匹配一个或者多个空格 // \1 后向引用,重复一次 // 如果正则表达式去掉 \1 console.log("oh oh , oh my god!".replace(/\b(\w+)\b\s+/, "rr")) // 输出:'rroh , oh my god!'
实际使用
数字格式化
console.log("1234567890".replace(/\B(?=(?:\d{3})+(?!\d))/g,",")) // 输出:'1,234,567,890'
去除ip地址
console.log("192.168.0.1".replace(/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/,"rr")) // 输出:'rr'
去除字符串中的中文,英文或者数字
console.log("aaa我是中国人111".replace(/[^u4E00-u9FA5]/g, "")) // 去除中文,输出:'aaa111' console.log("aaa我是中国人111".replace(/(\d)\1+/g, "")) // 去除数字,输出:'aaa我是中国人' console.log("aaa我是中国人111".replace(/([a-z])\1+/g, "")) // 去除英文,输出:'我是中国人111'
正则表达式规则表