js-正则表达式、ES6--(4)正则的扩展
2019-10-27
学习内容:
两大部分:js正则匹配、es6正则扩展
补充:
1、什么叫先行断言?
“先行断言”指的是,x
只有在y
前面才匹配,必须写成/x(?=y)/
。比如,只匹配百分号之前的数字,要写成/\d+(?=%)/
。“先行否定断言”指的是,x
只有不在y
前面才匹配,必须写成/x(?!y)/
。比如,只匹配不在百分号之前的数字,要写成/\d+(?!%)/
。
2、什么叫后行断言?
“后行断言”正好与“先行断言”相反,x
只有在y
后面才匹配,必须写成/(?<=y)x/
。比如,只匹配美元符号之后的数字,要写成/(?<=\$)\d+/
。“后行否定断言”则与“先行否定断言”相反,x
只有不在y
后面才匹配,必须写成/(?<!y)x/
。比如,只匹配不在美元符号后面的数字,要写成/(?<!\$)\d+/
。
3、日期格式的替换:(非常实用的例子)
let re = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/u; '2015-01-02'.replace(re, '$<day>/$<month>/$<year>') // '02/01/2015'
图形化解析正则表达式的工具:http://regexper.com
()括号括住的是分组
【】里的内容任选其一
一、REGEXP 对象:
有两种方法实例化regexp对象的方法:字面两和构造函数
字面量:var reg = /\bis\b/;
var = reg = /\bis\b/g; //全局匹配
使用: ‘xxx'.replace(reg, '0') //‘0’是替换匹配文本的内容
构造函数: var reg = new REGEXP('\\bis\\b', 'g')
两个斜线的是因为'\'在js是特殊字符,需要转义。
修饰符:类似于g这种用于给限定条件的字符:
二、Re:
元字符:
re中由两种基本字符类型组成:原义文本字符、元字符
元字符是在re中有特殊含义的非字母字符:如b . * /
字符类:
- 字符类取反:
范围类:
预定义类:
- 边界:
量词:
贪婪模式:
尽量的多匹配,同样满足的次数,取最多,通常匹配的字符串长度最长
非贪婪模式:
让re尽可能少的匹配,也就是说一旦成功匹配就不再继续尝试。操作:量词后加?
'123456789'.match(/\d{3,5}?\/g) // 匹配结果: ["123", "456", "789"]
分组:搭配捕获使用更为常见
反例:Byron{3} 只会匹配3次的“n”
使用( )可以达到分组的效果,使量词作用于整个组
或: | 指两种可能满足一种就能匹配
结合分组可以圈定范围:Byr(on|ca)sper
反向引用(分组并且捕获):2015-12-05 => 12/05/2015 实现:‘2015-12-05’.replace(/(\d{4})-(\d{2})-(\d{2})/g, '$2/$3/$1')
忽略分组:(不捕获,不占用分组顺序)
前瞻或后顾:就是先行断言,和后行断言。正向和负向就是肯定和否定匹配
(详见文章头部的补充)
正则对象属性:
(lastIndex在ES6可用y修饰符)
这些属性都无法直接赋值为true,只能使用修饰符做修改
test和exec方法:
(1)test(str): 用于测试字符串参数重是否存在匹配re模式的字符串,返回布尔值
g和y修饰符会带来一下test的问题:解决方法就是test不要和g和y搭配使用
var reg = /\w/g reg.test('ab) // true reg.test('ab) // true reg.test('ab) // False。因为lastIndex属性指向了b的下一个是无值,需要经过一次false才会回到起点 reg.test('ab) // true
(2)exec(str):使用re模式对字符串执行搜索,并将更新全局RegExp对象的属性以反映匹配结果。匹配到的返回结果数组(index:声明匹配文本的第一个字符的位置, input:存放被检索的字符串string),否则返回null
非全局调用:
ps:ret是结果数组
全局调用:
非全局调用是没有lastindex的(常为0),但是全局执行一次是有lastindex
字符串对象方法:
(1)search(reg):用于检索字符串中指定的子字符串,或检索与正则表达式相匹配的子字符串。有的话(无论几个)只返回第一个匹配结果index(位置),找不到就返回 -1。g标志将无意义,总是从字符串开始进行检索。
(2)match(reg):检索字符串,以找到一个或多个与regexp匹配的文本,此时g修饰符有意义。
非全局时:只执行一次,有的话返回一个数组,存放相关信息,没有就返回null。
相关信息指的是:(类似exec,只是string和reg换了个位置)
全局时:(此时不再类似exec,比exec展示弱,但不需要写while就能拿到全部匹配结果)
(3)split(reg)结合正则做切割:
(4)replace(reg,replacestr/function):匹配替换。第一个参数会被转成正则表达式
看看function怎么做(替换结果跟匹配结果有关系)
ES6 —— 正则的扩展:
一、RegExp 构造函数:
ES5中,构造函数的参数有两种情况:
// 情况一: var regex = new RegExp('xyz', 'i'); // 等价于 var regex = /xyz/I; // 情况二: var regex = new RegExp(/xyz/i); // 等价于 var regex = /xyz/i;
注意到情况二中, ‘i’不能隔开写,ES6中允许了:
new RegExp(/abc/ig, 'i').flags // "I" // 上面代码中,原有正则对象的修饰符是ig,它会被第二个参数i覆盖。
二、字符串的正则方法:
字符串对象共有 4 个方法,可以使用正则表达式:match()
、replace()
、search()
和split()
。
ES6 将这 4 个方法,在语言内部全部调用RegExp
的实例方法,从而做到所有与正则相关的方法,全都定义在RegExp
对象上。
String.prototype.match
调用RegExp.prototype[Symbol.match]
String.prototype.replace
调用RegExp.prototype[Symbol.replace]
String.prototype.search
调用RegExp.prototype[Symbol.search]
String.prototype.split
调用RegExp.prototype[Symbol.split]
三、u修饰符:
这个是为了修正大于\uFFFF
的 Unicode 字符。也就是说,会正确处理四个字节的 UTF-16 编码。
/^\uD83D/u.test('\uD83D\uDC2A') // false /^\uD83D/.test('\uD83D\uDC2A') // true
这样会引起一系列行为的改变:
(1)点字符:
点(.
)字符在正则表达式中,含义是除了换行符以外的任意单个字符。对于码点大于0xFFFF
的 Unicode 字符,点字符不能识别,必须加上u
修饰符。
更加正确认识“单个字符”。
(2)新的Unicode 字符表示法
ES6 新增了使用大括号表示 Unicode 字符,这种表示法在正则表达式中必须加上u
修饰符,才能识别当中的大括号,否则会被解读为量词。正则表达式无法识别\u{61}
这种表示法,只会认为这匹配 61 个连续的u
。
/\u{61}/u.test('a') // true
(3)转义
没有u
修饰符的情况下,正则中没有定义的转义(如逗号的转义\,
)无效,而在u
模式会报错。
四、RegExp.prototype.unicode 属性:
正则实例对象新增unicode
属性,表示是否设置了u
修饰符。
const r1 = /hello/; const r2 = /hello/u; r1.unicode // false r2.unicode // true
五、y修饰符:
🌟y
修饰符的设计本意,就是让头部匹配的标志^
在全局匹配中都有效。
类似于全局匹配g,都是从上一次匹配成功的下一个位置开始。不同之处在于,g
修饰符只要剩余位置中存在匹配就可,而y
修饰符确保匹配必须从剩余的第一个位置开始,这也就是“粘连”的涵义。
var s = 'aaa_aa_a'; var r1 = /a+/g; var r2 = /a+/y; r1.exec(s) // ["aaa"] r2.exec(s) // ["aaa"] r1.exec(s) // ["aa"] r2.exec(s) // null
针对上面例子,g可以从剩下的“_aa_a”中成功匹配aa,但是y不可以,因为开头是“_”无法接续,以下情况y才能正确匹配
var s = 'aaa_aa_a'; var r = /a+_/y; r.exec(s) // ["aaa_"] r.exec(s) // ["aa_"]
这时因为剩下的是“aa_a”, 那么“aa_”符合粘连且正确匹配的条件。
注意:g
修饰符会忽略非法字符,而y
修饰符因为粘连特性而不会,这样就很容易发现错误。
特别地:与y
修饰符相匹配,ES6 的正则实例对象多了sticky
属性,表示是否设置了y
修饰符。
六、正则对象新增flags属性:
// ES5 的 source 属性 // 返回正则表达式的正文 /abc/ig.source // "abc" // ES6 的 flags 属性 // 返回正则表达式的修饰符 /abc/ig.flags // 'gi'
七、点号可以匹配任意字符了!(dotall)
点(.
)是一个特殊字符,代表任意的单个字符,但是有两个例外。一个是四个字节的 UTF-16 字符,这个可以用u
修饰符解决;另一个是行终止符(line terminator character)。
所谓行终止符,就是该字符表示一行的终结。以下四个字符属于“行终止符”。
- U+000A 换行符(
\n
) - U+000D 回车符(
\r
) - U+2028 行分隔符(line separator)
- U+2029 段分隔符(paragraph separator)
引入s
修饰符,使得.
可以匹配任意单个字符。
const re = /foo.bar/s; // 另一种写法 // const re = new RegExp('foo.bar', 's'); re.test('foo\nbar') // true re.dotAll // true re.flags // 's'
注意:/s
修饰符和多行修饰符/m
不冲突,两者一起使用的情况下,.
匹配所有字符,而^
和$
匹配每一行的行首和行尾。
八、新支持后行断言:
JavaScript 语言的正则表达式,只支持先行断言(lookahead)和先行否定断言(negative lookahead),不支持后行断言(lookbehind)和后行否定断言(negative lookbehind)。ES2018 引入后行断言
/(?<=\$)\d+/.exec('Benjamin Franklin is on the $100 bill') // ["100"] /(?<!\$)\d+/.exec('it’s is worth about €90') // ["90"]
九、具名组匹配:
使用圆括号进行组匹配,并且能给组起名。如果具名组没有匹配,那么对应的groups
对象属性会是undefined
。
const RE_DATE = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/; const matchObj = RE_DATE.exec('1999-12-31'); const year = matchObj.groups.year; // 1999 const month = matchObj.groups.month; // 12 const day = matchObj.groups.day; // 31
🌟有了具名组匹配以后,可以使用解构赋值直接从匹配结果上为变量赋值。
// 解构: let {groups: {one, two}} = /^(?<one>.*):(?<two>.*)$/u.exec('foo:bar'); one // foo two // bar // 替换: let re = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/u; '2015-01-02'.replace(re, '$<day>/$<month>/$<year>') // '02/01/2015'