Regexp

Unix 不会阻止用户干蠢事,因为那样也会妨碍用户做聪明的事。

Linux grep,sed 常用语文本的搜索和处理,所以下面也基本通过这两个命令,练习regexp patterns.

基础

  • grep -n "string" data.txt #最简单的正则使用,就是查询string字符串,-n 打印行号

量词-出现的次数

- +     出现次数>0, => {1,}
- *     出现次数>=0. => {0,}
- ?     出现次数0,1或指明一个非贪婪限定符 => {0,1}
- {n}   匹配确定的 n 次。非负整数
- {n,}  至少匹配n 次。
- {n,m} 最少匹配 n 次且最多匹配 m 次。注意在逗号和两个数之间不能有空格。

eg:

1. grep -P "a+" data.txt        #a出现的次数>1, -P 采用perl regexp模式,不然无法使用\d
2. grep -P "a*" data.txt        #a出现的次数>0
3. grep -P "a?" data.txt        #a出现的次数0,1
4. grep -P "a{2}" data.txt      #a只连续2次的
5. grep -P "a{2,}" data.txt     #a至少连续2次的
5. grep -P "a{2,4}" data.txt    #a至少连续2次的, 最多4次

Note: *+?量词都是贪婪的,因为它们会尽可能多的匹配内容(后面有记录)。

括号表达式() [] {}

eg:

1. grep -P "(wrod)" data.txt        #查询word
2. grep -P "(wrod){2}" data.txt     #查询word连续出现2次
3. grep -P "(wrod1|word2)" data.txt #查询word1 or word2, `|` 指明两项之间的一个选择。
4. grep -P "[asd|jkl]" data.txt     #查询a,s,k,|,j,k,l字符,注意这里|不是或的意思。
5. grep -P "[02468]" data.txt       #只匹配0,2,4,6,8
6. grep -P "[\d]" data.txt          #[\d] => [0-9] => [0123456789]
7. grep -P "[\D]" data.txt          #[\D] => `[^0-9]` => `[^\d]` 匹配非数字内容,^在[]起始位置,表示不匹配[]内部的内容
8. grep -P "[\w]" data.txt          #匹配单词字符,也就是英文单词的组成成分,字母数字下划线 => `[^A-Za-x0-9]`, `[\W]`就是非单词字符 => `[^_A-Za-z0-9]`

或,并集和差集

eg:

1. echo "2345678901234563452" | grep -P "[0-3,6-9]"    #0-3 || 6-9
1. echo "2345678901234563452" | grep -P "[0-36-9]"     #也可以
2. man ls | grep -P "[a-f,x-y]"    #并集
3. 差集待续...

定位符

- ^  字符串的开始,对于文本来说,一行内容就是一个字符串。
- $  字符串的结束
- \b 匹配一个字边界,即字与空格间的位置。
- \B 非字边界匹配。

对于 ^ and $, 使用vim的就非常熟悉了。

Note: 不能将限定符与定位符一起使用。

eg:

1. grep -P "^a" data.txt        #字符串的以a开头
2. grep -P "^abc" data.txt      #字符串的以abc开头 => `^(abc)`
3. grep -P "^(abc|def)" data.txt#字符串的以abc 或 def开头
4. grep -P "(abc|def)$" data.txt#字符串的以abc 或 def结尾
5. grep -P " $" data.txt        #字符串的以 空格 结尾

^$是针对于一个字符串,一个字符串中含有很多单词,\b \B就是对单词进行匹配的。

1. grep -P "\ba" data.txt       #以a开头的单词,a,as,and,also,...
2. grep -P "a\b" data.txt       #以a结尾的单词, a,data,meta ....
3. grep -P "\bs[\w]+e\b" data.txt  #以s开头,e结尾的单词,some,single,style,....
4. grep -P "\Bee" data.txt      #非单词边界,也就是单词中。 单词中含有ee的,three,needed,See,green...单词中,就不分单词的开始和结束了 => `ee\B`
5. grep -P "\b[1][02468]\b" data.txt                # 10-19的偶数
6. grep -P "\b[02468]\b|\b[1-9][02468]\b" data.txt  # 0-99的偶数

其他字符

  • . 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用像"(.|\n)"的模式。

eg:

1. grep -P ".*" data.txt    # => `[^\n]` => `[^\n\r]`
2. grep -P ".+" data.txt 

元字符的字面值,一方面可以使用\进行转义为普通字符,另一方面可以用\Q\E把元字符包括起来,eg:\Q$\E,表达式将匹配$的字面值。

非打印字符

  • \a 报警字符

  • [\b] 退格字符

  • \cx 匹配由x指明的控制字符。
    \cM 匹配一个 Control-M 或回车符。
    x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。

  • \f 匹配一个换页符。等价于 \x0c 和 \cL。

  • \n 匹配一个换行符。等价于 \x0a 和 \cJ。

  • \r 匹配一个回车符。等价于 \x0d 和 \cM。

  • \t 匹配一个制表符。等价于 \x09 和 \cI。

  • \s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

  • \S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

  • \v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

  • \V 非垂直制表符

  • \h 水平空白符

  • \H 非水平空白符

  • \0 空字符

进制匹配

  • \nml 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
  • \xn 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。
  • \un 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。

多重含义

  • \num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。
  • \n 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
  • \nm 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

运算符优先级

从左到右进行计算,并遵循优先级顺序.不同优先级的运算先高后低。运算符的优先级顺序(高=>低)

\ => (), (?:), (?=), [] => *, +, ?, {n}, {n,}, {n,m} => ^, $, \任何元字符、任何字符 定位点和序列(即:位置和顺序)=> | 

中级

主要是一些概念的理解。

量词的贪心,懒惰和占有

量词自身是贪心的。贪心的量词会首先匹配整个字符串。尝试匹配时,它会选定尽可能多的内容,也就是整个输入。量词首次尝试匹配整个字符串,如果失败,则回退一个字符后再次尝试。这就是回溯。它会每次回退一个字符,直到找到匹配的内容或没有字符可尝试为止。同时,它还记录所有的行为,因此他对资源的消耗最大。

懒惰,或者勉强的量词从目标的起始位置开始尝试寻找匹配,每次检查字符串的一个字符,寻找要匹配的内容。最后,会尝试匹配整个字符串。设置一个量词为懒惰的,在普通量词后添加问好?即可。

占有量词会覆盖整个目标然后尝试寻找匹配的内容,只尝试一次,不会回溯。在普通量词后面添加一个加号+即可。

量词的贪心

尽可能多的匹配,这是量词本身的一个特性,不多说了。

懒惰量词

量词的贪心是尽可能多的匹配,也就是选择最大的匹配次数进行匹配;而量词的懒惰,恰恰相反,就是选择最小的匹配次数进行匹配;

1. grep -P "a{3,6}" data.txt        # aaa,baaab,aaaa,aaaaaa...都会被匹配,量词本身的贪心,匹配的结果尽可能的长;
2. grep -P "a{3,6}?" data.txt        # aaa,baaab,..匹配的结果尽可能的短,对于aaaaa的字符串,只匹配前3个a,后两个丢弃。

eg: 查找< and > 之间的内容

1.echo "<h1>abcdefg</h1>" | grep -P "<.*>"        #返回结果:<h1>abcdefg</h1>尽可能多的贪婪匹配
2.echo "<h1>abcdefg</h1>" | grep -P "<.*?>"       #返回结果:<h1>,</h1>, 匹配到了两个
- ?? 懒惰匹配0 or 1次, 选择的匹配次数为 0
- +? 懒惰匹配1 or more,选择的匹配次数为1
- \*? 懒惰匹配0 or more,选择的匹配次数为0
- {n}? 懒惰匹配n
- {n,}? 懒惰匹配n or more, 选择的匹配次数为n
- {n,m}? 懒惰匹配n-m,选择的匹配次数为最小的n次 

干活偷懒,总是选择最小的次数进行匹配,这就是懒惰。

占有量词 (栗子暂没有想到,待续...)

很像贪心式匹配,会选定尽可能多的内容。但是与贪心式匹配不同的是不进行回溯。不会放弃所找到的内容,很自私,所以把它称为占有式,紧紧抱住自己所选的内容,一点也不放弃。优点是速度快,因为无需回溯。当然,匹配失败的话也很快。

0.*+ 所有0都被匹配了
0.*+0 没有匹配,原因就是没有回溯。一下子就选定了所有的输入,不再回头查看。一下子没有在结尾找到0,也不知道该从哪里开始找。

在量词后面添加+,即可转变为占用。

捕获分组和后向引用

正则表达式两边添加圆括号,将把匹配放到一个组中,组中的每个子匹配都按照在组中从左到右出现的顺序存储。 组中每个匹配的编号从 1 开始,最多可存储 99 个子表达式。 每个子表达式都可以使用 \n 的形式访问。

eg:

1. grep -P "(\d)\d\1" data.txt        # 匹配:101,111,202,131...

- (\d) 匹配一个数字,并将其捕获
- \d   匹配第二个数字,可是没有进行捕获
- \1   对捕获的数字,进行后向引用

2. man ls | grep -P "(\w)\w\1"        # 匹配: SIS,non,ifi,ses,www,ewe....
3. man ls | grep -P "(\w)\w{2,3}\1"   # 匹配:indi,extension,text,stops,rever...
4. man ls | grep -P "(\w)\w(\w)\1\2"  # 匹配:enses

后向引用将通用资源指示符 (URI) 分解为其组件。假定您想将下面的 URI 分解为协议(ftp、http 等等)、域地址和页/路径:

var str = "http://www.runoob.com:80/html/html-tutorial.html";
var patt1 = /(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/;
arr = str.match(patt1);
for (var i = 0; i < arr.length ; i++) {
    console.log(arr[i]);
}

output

http://www.runoob.com:80/html/html-tutorial.html
http
www.runoob.com
:80
/html/html-tutorial.html
  • 第一个括号子表达式捕获 Web 地址的协议部分。该子表达式匹配在冒号和两个正斜杠前面的任何单词。
  • 第二个括号子表达式捕获地址的域地址部分。子表达式匹配 / 和 : 之外的一个或多个字符。
  • 第三个括号子表达式捕获端口号(如果指定了的话)。该子表达式匹配冒号后面的零个或多个数字。只能重复一次该子表达式。
  • 最后,第四个括号子表达式捕获 Web 地址指定的路径和 / 或页信息。该子表达式能匹配不包括 # 或空格字符的任何字符序列。

第一个括号子表达式包含"http"
第二个括号子表达式包含"www.runoob.com"
第三个括号子表达式包含":80"
第四个括号子表达式包含"/html/html-tutorial.html"

非捕获分组:不会将其内容存储在内存中。所以会带来较高的性能。

可以使用非捕获元字符 ?:、?= 或 ?! 来重写捕获,忽略对相关匹配的保存。

捕获分组 => 非捕获分组

eg:

(the|The|THE) => (?:the|The|THE) =>不区分大小写 (?i)(?:the) or (?:(?i)the)  The better way: (?i:the)
  • (?:pattern) 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
  • (?=pattern) 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
  • (?!pattern) 负向预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

原子分组

有的正则表达式引擎是进行回溯操作,回溯操作会尝试每一种可能性,消耗时间和计算资源,有时候会占用大量时间,可能产生巨大的负面效应。通过原子分组(?>the)可以关闭回溯操作,可是只针对原子分组内的部分,不针对整个表达式。

环视

一种非捕获分组,根据某个模式之前或之后的内容匹配其他模式。又叫做零宽度断言,环视分为 正前瞻,反前瞻,正后顾,反后顾

Perl语言有这种功能,grep测试失败,待续...

正前瞻:要匹配keyword,且要求紧随其后的单词是anotherword,可以使用正前瞻 (?i)keyword (?=anotherword)
反前瞻: 对正前瞻的取反操作,匹配某个模式的时候,需要在它后面找不到含有给定前瞻模式的内容。eg: (?i)keyword (?!anotherword)
正后顾: 会查看左边的内容,与正前瞻方向相反。eg: `(?i)(?<keyword) anotherword`
反后顾: 会查看某个模式在从左到右的文本流的后面没有出现。eg:`(?i)(?<!keyword) anotherword`

grep的正则基础

统计单词a|A出现的次数

1. man ls | grep -Eoc "(a|A)"    #101

-E 使用扩展的正则表达式
-o 只显示一行中与模式相匹配的那部分
-c 只返回结果的数量
2. man ls | grep -Eo "(a|A)" | wc -l #263

第二条命令的结果大一些。因为-c给出的是匹配的行的数目,但是一行中可能有多个单词匹配。
而第二条命令,指定的单词不管是哪一种形式出现,每次出现都会最为单独的一行统计。所以,结果就大一些。

- (THE|The|the) 三个子模式的匹配互不影响
- (t|T)h(e|eir) 后面子模式(e|eir)的匹配依赖于前面子模式(t|T)的匹配。

sed的正则基础使用

sed替换

1. echo Hello | sed 's/Hello/Goodbye/'    #单引号

sed 的s表示,将Hello替换成Goodbye, 就相当于vim命令下的:0,$s/Hello/Goodbye/gc

sed -n 's/^/<h1>/;s/$/<\/h1>/p;' data.txt    # 符合命令,这样尝试失败

- sed默认的操作是直接复制每行输入并输出。-n选项覆盖默认操作。这样只让正则表达式影响第一行。
- 's/^/<h1>/' 在行的开头添加 '<h1>'
- 分号;用于分割命令
- 's/$/<\/h1>/' 在行的末尾添加...
- 命令p会打印受影响的一行
- q结束程序

或者使用-e分别引导命令

3. sed -ne 's/^/<h1>/' -e 's/$/<\/h1>/p' -e 'q' data.txt    #注意/的转义\/

或者,将命令写入文件:

#!/usr/bin/sed

s/^/<h1>/
s/$/<\/h1>/
q
sed -f h1.sed data.txt
  1. 用br标签代替空行来分割内容
sed -E 's/^$/<br\/>/' data.txt
  1. 后向引用

eg:

1. echo hello | sed 's/\(hello\)/<title>\1<\/title>/'
2. echo hello | sed 's/\(hello\)/<h1>\1<\/h1><title>\1<\/title>/'

sed 插入与追加

sed中的插入命令i允许你在文件或字符串中的某个位置之前插入文本;
sed中的追加命令a允许你在文件或字符串之后添加文本;

1. sed '1 i\this is first line' data.txt    #在第一行的位置,插入
2. sed -i '5i\this is a new line' data.txt  #在第五行的位置插入

追加标签

1. sed '$a\append a new line' data.txt

sed捕获分组和后向引用

1. echo onetwothree | sed -E 's/(one)(two)/\2 \1 /'    #two one three

-E 选项调用ERE扩展的正则表达式
-n 覆盖打印每一行的默认设置

sed 处理罗马数字

1. sed -En 's/^(ARGUMENT\.|I{0,3}V?I{0,2}\.)$/<h2>\1<\/h2>/' data.txt

sed处理特定段落

1. sed -En '5s/^([A-Z].*)$/<p>\1<\/p>/' data.txt

仅仅处理第5行的内容。这个和vim的替换有相同的语法。哈哈

sed 处理多行内容

2. sed -E '9s/^[ ]*(.*)/ <p>\1<br\/>/;10,832s/^([ ]{5,7}.*)/\1<br\/>/;833s/^(.*)/\1<\/p>' data.txt

常用正则

runoob

缩写

  • ASCII American Standard Code for Information Interchange.美国信息交换标准代码
  • POSIX Portable Operating System Interface 可移植操作系统接口

Reference

runoob.com
POSIX Basic Regular Expressions
wikipedia
regex online tool
sed comand


posted @ 2018-01-09 18:12  [0]  阅读(270)  评论(0编辑  收藏  举报