grep命令
grep:Global search REgular expression and Print out the line
文本过滤(模式:pattern)工具;
grep, egrep, fgrep(fast grep)
作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行;
模式:由正则表达式字符及文本字符所编写的过滤条件;
REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符不表示字符字面意义,而表示控制或通配的功能;
基本用法:
grep [OPTIONS] PATTERN [FILE...]
grep:关键字
[OPTIONS] :选项
PATTERN:模式
[FILE...] :对哪个文件做过滤
#grep root /etc/passwd //root就是PATTERN /etc/passwd就是[FILE...] ,
选项
--color=auto: 对匹配到的文本着色显示;
为了使grep后的结果有颜色,这里定义grep别名# alias grep='grep --color=auto'
-v: 显示不能够被pattern匹配到的行;
-i: 忽略字符大小写;
-o: 仅显示匹配到的字符串;
# grep -o root /etc/passwd
-q: 静默模式,不输出任何信息;
-A #:after, 后#行
-B #: before, 前#行
-C #:context, 前后各#行
-E:使用ERE;
基本正则表达式
分为:字符匹配、匹配次数、位置锚定
字符匹配:
.: 匹配任意单个字符;
[]: 匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[:digit:]数字、[:lower:]小写字符、[:upper:]大写字符、[:alpha:]所有字符、
[:alnum:]所有的数字和字符、[:punct:]所有的标点符号、[:space:]空白空格
示例:
1、grep 's..n' /etc/passwd//查询/etc/passwd中所有以s开头,以n结尾,中间出现任意两个字符(出现元字符要用引号引起来)
#grep '...t' /etc/passwd //任意3个字符后面跟t ,这里含有特殊字符
匹配次数 :用在要指定次数的字符后面,用于指定前面的字符要出现的次数;
*:匹配前面的字符任意次(0次到多次);(*不表示任何字符,只表示次数)
例如: #grep "x*y"
可匹配到的:abxy(x出现一次)、xxxxxxy(x出现了5次)、xay(x出现了0次,只跟y)
无法匹配的:x(无法匹配,因为必须有y)
贪婪模式:正则表达式尽可能长的去匹配
.*:任意长度的任意字符;
# grep 'a.*y' /etc/passwd //匹配a和y中间有任意长度的任意字符
\?:匹配其前面的字符0或1次;即前面的可有可无;
# grep 'x\?y' grep.txt //y前x可有可无,有多个的话只匹配一次
\+:匹配其前面的字符至少1次;
# grep 'x\+y' grep.txt // y前面的x必须至少有一次
\{m\}:匹配前面的字符m次;
# grep '[[:alpha:]]\{3\}h' /etc/passwd //y前面出现任意字符至少3次
\{m,n\}:匹配前面的字符至少m次,至多n次;这里可以说y前面的字符最少是1个,最多是6个,不包括符号
\{0,n\}:匹配前面的可以0次,至多n次;
\{m,\}:匹配前面的字符至少m次,至多不限
# grep '[[:alpha:]]\{1,6\}y' /etc/passwd //匹配y前面出现的字符至少1次,至多6次。
位置锚定:
^:行首锚定;用于模式的最左侧;
# grep '^root' /etc/passwd //锚定行首,root必须在行首
$:行尾锚定;用于模式的最右侧;
# grep 'bash$' /etc/passwd //bash必须出现在行尾
^PATTERN$: 用于模式匹配整行;
^$: 空行;一行中没有任何字符
# grep '^$' /etc/fstab //匹配/etc/fstab文件中的空行
^[[:space:]]*$ //空白可以是没有的,有的话任意个都可以
# grep '^[[:space:]]*$' /etc/fstab
\< 或 \b:词首锚定;用于单词模式的左侧;
# grep '\<[[:alpha:]]\{1,3\}t' /etc/passwd //t出现至少1次,至多3次,但是必须在单词首部,不必一定在行首
\> 或 \b:词尾锚定;用于单词模式的右侧;
# grep '[[:alpha:]]\{1,3\}t\>' /etc/passwd //出现在单词尾部
\<PATTERN\>:匹配整个单词;
# grep '\<root\>' /etc/passwd //在文件里root是整个单词出现的
分组:
\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理;
# grep '\(xy\)\+' grep.txt //xy作为整体至少出现一次
Note: 分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
\(ab\+\(xy)*\):
\1:ab\+\(xy\)* //这个表达式的\1表示第一个小括号,即加红部分
\2: xy
后向引用:引用前面的分组括号中的模式所匹配字符,(而非模式本身)
比如第一行中前面的模式匹配的是root,那么这一行中后面就以root为匹配字符,去匹配此行中后面的内容(只限此行)
第二行中模式匹配到的是tkit,而第二个匹配到的是eKit,这就是后面的eKit不是用模式所匹配的字符去查找的
# grep '\([[:alpha:]]\{1,3\}t\>\).*\1' /etc/passwd //用加红部分的小括号括起来,.*表示中间可以跟上任何内容,\1表示引用\(\) 中 所匹配到的内容,
中间内容是被.*匹配到的
练习:
1、显示/proc/meminfo文件中以大小s开头的行;(要求:使用两种方式)
# grep '^S.*' /proc/meminfo
# grep '\<S.*' /proc/meminfo
# grep '\bS.*' /proc/meminfo
# grep -i '^s' /proc/meminfo
# grep '^[S]' /proc/meminfo
# grep -i '^[s]' /proc/meminfo
# grep '^\(S\)' /proc/meminfo
2、显示/etc/passwd文件中不以/bin/bash结尾的行;
# grep -v '/bin/bash$' /etc/passwd
# grep -v '/bin/bash\>' /etc/passwd
3、显示/etc/passwd文件中ID号最大的用户的用户名;
# sort -t: -k3 -n /etc/passwd | tail -l | cut -d: -f1
4、如果用户root存在,显示其默认的shell程序;
# id root &>/dev/null && grep '^root\>' /etc/passwd | cut -d: -f7
5、找出/etc/passwd中的两位或三位数;
# grep "\<[0-9]\{2,3\}\>" /etc/passwd
# grep '\<[[:digit:]]\{2,3\}\>' /etc/passwd
6、显示/etc/rc.d/rc.sysinit文件中,至少以一个空白字符开头的且后面存非空白字符的行;
# grep "^[[:space:]]\+[^[:space:]]" /etc/grub2.cfg
# grep '^[[:space:]]\+[[:alpha:]]\+' /etc/rc.d/rc.sysinit //这个错误的地方是[[:alpha:]]不包括标点符号
7、找出"netstat -tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行;
# netstat -tan | grep "LISTEN[[:space:]]*$"
8、添加用户bash、testbash、basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;
#useradd bash
#useradd basher
#useradd testbash
#useradd -s /sbin/nologin nologin
# grep "^\([[:alnum:]]\+\>\).*\1$" /etc/passwd
9、使用echo输出一绝对路径,使用egrep取出其基名(类似basename命令);
# echo "/mnt/sdc" | grep -E -o "[^/]+/?$" | cut -d"/" -f1
or
# echo "/etc/sysconfig/network/" | egrep -o "\<[[:alpha:]]+\>/?$" | cut -d'/' -f1
egrep及扩展的正则表达式
egrep = grep -E
语法:egrep [OPTIONS] PATTERN [FILE...]
扩展正则表达式的元字符:
字符匹配:
.
[]
[^]
次数匹配:
*
?: 0或1次;
+:1次或多次;
{m}:匹配m次;
{m,n}:至少m,至多n次;
锚定字符:
^
$
\<, \b
\>, \b
分组:
()
后向引用:\1, \2, ...
或者:
a|b
C|cat: C或cat
(C|c)at:Cat或cat
练习
1、显示当前系统root、centos或user1用户的默认shell和UID;
#grep -E '^(root|centos|user1)\>' /etc/passwd | cut -d: -f1,3,7
(root|centos|user1):选择其中一个
^(root|centos|user1)\>:以三个单词开头,并且锚定词尾,即root等是完整的单词,不能是roottt等之类
2、找出/etc/rc.d/init.d/functions文件(centos6)中某单词后面跟一个小括号的行;
# grep -E -o '^[_[:alpha:]]+\(\)' /etc/rc.d/init.d/functions
^[_[:alpha:]]:表示必须锚定词首,有连字符“_”,或由大小写字符组成
+:表示字符至少出现1次
\(\):跟上一组小括号:(),但在这里需要对小括号进行转义,这样才能显示其本身含义,用\做转义,即\(\)
3、使用echo输出一绝对路径,使用egrep取出其基名;
# echo '/mnt/sdc' | grep -E -o '[^/]+$'
-o:只显示匹配内容,
[^/]:显示/以外的所有内容
[^/]$:显示词的结尾
[^/]+:表示非/开头内容至少出现一次
# echo '/mnt/sdc/' | grep -E -o '[^/]+/?$' | cut -d"/" -f1 //比上面路径名多了/
+:表示[^/]里面的/至少出现一次,
/?:?表示前面的/可以是0次也可以是一次,可有可无
cut -d"/" -f1 :以/为分隔符取第一个字符串
进一步地:使用egrep取出路径的目录名,类似于dirname命令的结果;
4、找出ifconfig命令结果中1-255之间的数值;
5、找出ifconfig命令结果中的IP地址;
fgrep
fgrep:不支持正则表达式搜索;
例如#fgrep "r..t" /etc/passwd 是没有任何结果的,因为在fgrep中..就是..,
不通配任何字符,不基于正则表达式做模式匹配的,仅仅找给定的字符串,所以速度比较快
图片转自:简书:https://www.jianshu.com/p/2849fd296df1