学习笔记:文本过滤_____unix 下的通配符
有个文件 test.txt 内容如下:
6. "[ ]" 匹配1个集合
如:
gateman@GPC:~/shell$ grep -n u[Ss]er test.txt #匹配大写 S或小写s
1: user
2: user
3: user_hi
4:user
为抽取诸如S c o u t、s h o u t、b o u g h t等单词,使用下列表达式:
[ou] .*t
匹配以字母o或u开头,后跟任意一个字符任意次,并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词,这里S可大写或小写。使用如下操作:
[ S,s ] y s t e m \ .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益,例如[ A - Z a - Z ] *将
匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[ ^ 0 - 9 ]
匹配任一非数字型字符。
==========================================================================
7. "\{\}" 指定匹配次数
例如:
bash-3.00$ cat test.txtuseruseruser_hiuser#注:呢行系空行T
J
GATEMAN
GATTTTTEMAN
GABBEMANAAABbash-3.00$
下面介绍下常用的通配符 配合grep 命令:
1. "." 匹配单字符
例如:
bash-3.00$ grep -n u..r test.txt
1: user
2: user
3: user_hi
4:user
bash-3.00$ grep -n u..r.h.. test.txt #匹配唔成功
bash-3.00$ grep -n u..r.h. test.txt
3: user_hi
==========================================================================
2. ”^" 匹配行首
例如:
bash-3.00$ grep -n ^u test.txt
4:user #只匹配到第4行, 因为^u 表示以u开头的行,不包括以空格和tab开头的行
bash-3.00$ grep -n ^u.e test.txt # 和. 配合使用
4:user
==========================================================================
3. "$" 匹配行尾
例如:
bash-3.00$ grep -n er$ test.txt #以er结尾的行
1: user
2: user
4:user
bash-3.00$ grep -n ^u..r$ test.txt #配合^使用 以u开头 中间有2个字符 而且 r结尾的行
4:user
bash-3.00$ grep -n ^$ test.txt # ^$ 只匹配空行 不包括有空格的行(第5行)
5:
bash-3.00$ grep -n ^.$ test.txt # 匹配只有1个字符的行(第6行只有1个字符T)
6:T
bash-3.00$ grep -n ^..$ test.txt # 匹配有且只有2个字符的行(第7行只有2个字符:空格 和 J)
7: J
==========================================================================
4. "*" 匹配单字符 或重复队列
例如:
bash-3.00$ grep -n * test.txt #单独使用 *什么也匹配不到
bash-3.00$ grep -n ^k* test.txt #匹配以n个k开头的行 n>=0 因为包含0个k开头的行,所以实际上匹配所有行
1: user
2: user
3: user_hi
4:user
5:
6:T
7: J
8:GATEMAN
9:GATTTTTEMAN
10:GABBEMAN
bash-3.00$ grep -n us*e..h*i$ test.txt #未指定开头,含有1个u,后面跟0个或n个s,跟着e,跟住2个字符,跟住0个或n个h,i结尾
3: user_hi
bash-3.00$ grep -n GAT*..AN$ test.txt #你懂的 0个或N个T
8:GATEMAN
9:GATTTTTEMAN
gateman@GPC:~/shell$ grep -n G.*MAN test.txt # .*组合使用 常用的来了 意思是G后面跟任意字符 任意次..
8:GATEMAN
9:GATTTTTEMAN
10:GABBEMAN
gateman@GPC:~/shell$ grep -n G.*MAN test.txt # .*组合使用 常用的来了 意思是G后面跟任意字符 任意次..
8:GATEMAN
9:GATTTTTEMAN
10:GABBEMAN
==========================================================================
5. ”\“ 屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么
是特殊字符?一般意义上讲,下列字符可以认为是特殊字符:
¥ ., () {} [] * ^ % $.....
假定要匹配包含字符“.”的各行而 "." 代表匹配任意单字符的特殊字符,因此需要屏蔽
其含义。操作如下:
\ .
上述模式不认为反斜杠后面的字符是特殊字符,而是一个普通字符,即句点。
假定要匹配包含^的各行,将反斜杠放在它前面就可以屏蔽其特殊含义。如下:
\ ^
如果要在正则表达式中匹配以* . p a s结尾的所有文件,可做如下操作:
\ * \ . p a s
即可屏蔽字符*的特定含义。
==========================================================================
6. "[ ]" 匹配1个集合
如:
gateman@GPC:~/shell$ grep -n u[Ss]er test.txt #匹配大写 S或小写s
1: user
2: user
3: user_hi
4:user
为抽取诸如S c o u t、s h o u t、b o u g h t等单词,使用下列表达式:
[ou] .*t
匹配以字母o或u开头,后跟任意一个字符任意次,并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词,这里S可大写或小写。使用如下操作:
[ S,s ] y s t e m \ .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益,例如[ A - Z a - Z ] *将
匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[ ^ 0 - 9 ]
匹配任一非数字型字符。
==========================================================================
7. "\{\}" 指定匹配次数
例如:
gateman@GPC:~/shell$ grep -n AT\{1\}E test #一定要带“ ”号,否则无结果
gateman@GPC:~/shell$ grep -n "AT\{1\}E" test.txt #只跟1个T
8:GATEMAN
gateman@GPC:~/shell$ grep -n "A\{1,\}B" test.txt #1个或以上的A跟住B 例如AB AAB AAAB..
10:GABBEMAN
11:AAAB
gateman@GPC:~/shell$ grep -n "A\{1\}B" test.txt #只匹配AB, 注意: AAAB 包含AB
10:GABBEMAN
11:AAAB
gateman@GPC:~/shell$ grep -n "^A\{1,2\}B" test.txt #1~2个A ,只匹配AB 和AAB 并且以A开头, 注意: AAAB 不符
gateman@GPC:~/shell$ grep -n "^A\{1,3\}B" test.txt #这个就可以稳出来了.
11:AAAB