shell命令三剑客之grep命令详解
正则表达式和grep、vim、awk、sed等的关系:
正则表达式是一种方法,相当于一种工艺,grep等命令相当于是一个具体的加工机器,机器在加工产品的时候,采用这种方法。
三者的效率:grep>sed>awk
1. 通配符(globbing)
常用通配符:
* 代表 匹配0个或者多个字符
?代表匹配1个字符
[…] :匹配范围内任意1个字符,例如[az]、[a-z]、[a\-z]
[^…]: 匹配范围外任意1个字符,表示取反
{}:组合匹配,touch a{1,3,5} touch b{1..10} touch {a,b,c}_{1,2,3}
例:
[0-9] 代表数字
[abcd123]代表取中括号里的任意一个字符
[a-Z] 代表大小写字母
[0-Z]代表数字0-9和所有的大小写字母
正则表达式里通配符和shell里面的通配符的区别:
- shell里面的通配符:用在bash里面;
- 正则里面的通配符:用在真正的命令里面。
2. grep
grep全称通用正则表达式分析程序(global research regular expression and printing)。
其实,grep是一个过滤命令,根据特定的正则表达式来过滤文本里的内容。
grep是根据某个模式进行匹配文件里的一行一行的数据去处理的,如果有匹配的行,就会将整行输出到屏幕上。
grep用的时候模式要用双引号""引起来!!!
用途:使用正则表达式搜索文本,并把匹配的行打印出来
格式:grep [选项] 模式 目标文件
模式其实就是一个公式,里面有字母+数字+特殊符号,组合成一个正则表达式,表达出某个含义。
常用选项:
-v:invert,反转查找,输出与模式不相符的行;
-An:after-context,同时显示符合条件行的下面n行;
-Bn:before-context,同时显示符合条件行的上面n行;
-Cn:同时显示符合条件行的上面n行和下面n行;
-E:extended regular,支持扩展正则表达式;
-o:only-matching,仅显示匹配的字符串;
-f:根据文件内容进行匹配;
-a:以文本文件方式搜索,不忽略二进制的数据;
-c:计算找到的符合行的次数;
-i:ignore-case忽略大小写;
-n:line-number,顺便输出行号;
-P "\t" --》得到Tab键 --》使用perl语言的正则语法,支持\t表示table键,\s表示空白。
2.1 linux系统支持的三种形式的grep命令
Linux系统支持三种形式的grep命令,通常将这三种形式的grep命令称为grep命令族,这三种形式具体为:
- ls /bin/*grep
- fgrep:不支持正则表达式,快速搜索简单模式,按照字符串的字面意思进行匹配吗,相当于grep -F
- grep:可以使用基本正则表达式搜索
- egrep:可以使用基本和扩展正则表达式搜索,相当于grep -E
3. 正则表达式
正则表达式是一个指定文本模式的标准Unix 语法。
使用特殊元字符实现复杂的搜索问题;
元字符(meta characters)是用来阐释字符表达式意义的字符,简言之,元字符就是描述字符的字符,它用于对字符表达式的内容、转换及各种操作信息进行描述。
正则表达式是由一串字符和元字符构成的字符串,简称RE(Regular Expression)。
基本正则表达式和Unix兼容;
扩展正则表达式增加了一些新的元字符。
正则表达式由下列元素构成 :
- 普通字符,a、b 、1、2
- 通配符,与文件名通配符不是一回事
- 修饰符:”*” ”?”等
- 锚点:以什么开头、以什么结尾。
正则里的通配符:
- “.”:表示一定有一个任意字符
例:a…b :代表ab之间有三个字符。
- 方括号表达式:一个文字字符域
[abc] :a或者b或者c中的一个。
[^abc] :不是abc其中的一个。
[0-9]、[a-z]、[A-Z] : 数字、小写、大写。
- 域表达式和字符类
考虑到不同的编码方案推荐使用字符类方式(此类方法不常用,以被上面②方式代替!)。
[:alnum:] -字母数字混排 等同于[0-Z]
[:digit:] -数字 等同于[0-9]
[:lower:] -小写字母 等同于[a-z]
[:upper:] -大写字母 等同于[A-Z]
[:space:] -空白字符,空格、TAB、换行符等
通用修饰符(理解为通配符即可)
- 问号:表示0个或者1个前面的字符(0或1个)(扩展)
例:ab?c 代表没有b或者只有一个b,即等同于ac、abc。
- 星号:表示>=0个前面的字符
例:ab*c 代表没有b或者多个b,即等同于ac、abc、abbc、abbbc......
- +:表示1个或者多个前面的字符(>=1)
例:ab+c 代表 一个b或者多个b,即等同于abc、abbc、abbc......
- {n}:表示n个前面的字符(前面的字符出现了n次)
例:ab{2}c 代表b出现了两次,即等同于abbc。
- {n,m}:表示n个到m个前面的字符。
例:ab{2,4}c 代表2个到4个b,即等同于abbc、abbbc、abbbbc。
- .* :点代表任意一个,星号表示前面的0个或多个,即等同于所有字符。
锚点搜索
- “^”:表示以什么开头行
例 ^aa 代表以aa开头的行。
- 美元符:表示以什么结尾的行
例 bash$代表以bash结尾的行。
- \<:表示词首部。作用等同于\b
例 \bwubing 代表以wubing开头的行。
- \>:表示词尾部。作用等同于 \b
例 wubing\b 代表以wubing结尾。
- \< abc >:表示abc这个单词 等价于 \babc\b
例 \<wubing\> 代表wubing这个单词。
grep在界定单词的时候,默认使用的分隔符是空白。
3.1 扩展正则表达式
egrep、awk和Perl等Linux工具还支持正则表达式扩展出来的一些元字符,这些元字符如下表所示:
- ?:匹配0个或1个在其之前的那个普通字符
- +:匹配1个或多个在其之前的那个普通字符
- ( ):表示一个字符集合
- | :表示'或',匹配一组可选的字符
正则表达式分组
①“?”、”*”、”+”默认只能修饰前面一个字符
②利用圆括号( )可以实现多个字符分组。
例 f(oo)* :因为oo括起来了,所以把oo看成"一个字符",即f、foo、foooo......
③在圆括号中利用”|”实现或者的功能
echo foooeee | egrep --color "(oo|ee){2}"
echo foooeee | egrep --color "(oo|ee){1}"
转义元字符
egrep ‘cat.' /etc/aa
egrep ‘cat\.' /etc/aa
正则表达式与通配符匹配的区别:
- 正则表达式只在少数搜索和替换文本命令中使用;
- 文件名匹配在bash中匹配文件名;
- 都使用”*”、”?”但意义不一样;
- 正则表达式元字符要放在引号内,避免bash Shell解释。
4. IP的正则
4.1 ip地址的类别
简单来讲分为三类:
- A类网络的IP地址范围为:1.0.0.1-126.255.255.254;
- B类网络的IP地址范围为:128.1.0.1-191.255.255.254;
- C类网络的IP地址范围为:192.0.1.1-223.255.255.254
4.2 ip地址的正则
写ip地址正则时的方法:需要按个位(1位)、十位(2位)、百位(3位)
显示文件中的所有A类地址:(1-126)
"\b([1-9]|[1-9][0-9]|1[01][0-9]|12[0-6])(\.([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]) ){3}\b"
解析:
先写的个位,十位,百位先写的100-119,再120-126;
0-255,先0-9,再10-99,100-199,200-249,最后250-255
显示文件中的所有B类地址:(128-191)
"\b(12[89]|1[3-8][0-9]|19[01])(\.([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5]) ){3}\b"
显示文件中的所有C类地址:(192-223)
"\b(19[2-9]|2[01][0-9]|22[0-3])(\.([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5]) ) {3}\b"
匹配email地址:
egrep "[0-Z._]+@[0-Z]+\.[a-Z]+"
匹配HTTP URL:
egrep "^http://([0-Z]+\.){2}[a-Z]{2,3}"
egrep --color "http://(.*\..*){2}" --》网址至少有两个点!(适用所有网址)
5. shell中的特殊字符
- :冒号
内置的空命令,返回值为0--》while : - ;分号
连续运行命令 - | 管道
前面命令的标准输出作为后面命令的标准输入
正则中表示或者 - &
将命令放到后台执行
表示标准输出和标准错误输出 - &&
前面命令执行成功才执行后面的命令 - ||
前面命令执行不成功才执行后面的命令 - 井号
表示注释 - ? 问号
通配符中表示任意1个字符
正则表达式中表示0个或者1个前面的字符 - 星号
通配符中表示0个到多个任意字符
正则表达式中表示0个或者多个前面的字符
算术运算中的乘法 - !惊叹号
将命令或者条件表达式的返回值取反
执行历史命令
vi或者ftp中执行外部shell命令
间接应用变量 --》$ - $ 美元符号
取变量的值
正则表达式表示行尾 - \ 反斜杠
单字符转义 - 大于号
输出重定向
条件测试中的大于号 - 小于号
输入重定向
条件测试中的小于号 - = 等号
变量赋值
条件测试中的等号 - 加号
算术运算中的加号
正则表达式中1个或多个前面的字符 - >>
输出重定向追加
<<
here document - - 减号
算术运算中的减号
命令的选项
上一次工作目录
通配符和正则表达式中表示范围[a-z]
tar -cvf - /home | tar -xvf - 表示输出流或输入流 - ' ' 单引号
解决变量赋值空格的问题
阻止shell替换 - " " 双引号
解决变量赋值空格的问题
阻止shell部分字符替换,对$、!等无效 - `` 反引号
命令行替换 - % 百分号
算术运算中的模运算
vi中替换操作中表示所有行 - () 单圆括号
子shell中执行命令,会继承父shell的变量
括起数组元素 - (()) 双圆括号
算术运算
整数比较测试 - [] 单方括号
通配符和正则中表示匹配括号中的任意一个字符
条件测试表达式
数组中下标括号 - [[]] 双方括号
字符串比较测试 --》不能比较小数!比较小数要用bc计算机--》echo "4.5>5.5"|bc ,返回值为0,假的 - . 句点号
正则中表示任意1个字符
当前shell执行脚本命令
表示当前目录 - {} 大括号
通配符扩展 abc{1,2,3}
正则表达式中表示范围
匿名函数{cmd1;cmd2;cmd3} &> /dev/null
括起变量名${abc}a - / 正斜杠
算术运算中的除法
根目录或路径分割符 - ^
在[^abc]通配符中表示取反
在正则表达式中表示以什么开头
6. 练习
1.新建/lianxi目录,复制/etc/passwd到当前目录下。
2.查找出当前passwd文件中以ftp开头或者mail开头的行,在屏幕输出。
3.查找出当前passwd文件中首行不是以r、m、f开头的行,在屏幕输出。
4.查找出当前passwd文件中以bash结尾的行。
5.查找出/etc/login.defs文件中的有效行(不显示空行和注释行)。
6.查找出/var/log/messages文档中有16个字母的单词。
7.查找/etc/passwd文件里用户名包含liu同时使用bash的用户。
8.查找/etc/ssh/sshd_config文件里的有效行。
9.查找/etc/ssh/sshd_config文件里的包含连续2个数字的行。
10.查找出包含特殊字符的行。
11.查找出不包含数字的行。
12.查找出/var/log/messages里的ip地址出来。
13.写一个正则来表示出下面的网址,例如:
http://www.baidu.com
http://www.sina.com
http://www.163.com
http://www.12306.cn
http://www.qillu.edu
14.写一个表示邮箱的正则,例如:
feng@qq.com
1234feng@163.com
meng.xianhui@yahoo.cn
liudenghua@sina.com
10001@qq.com
123_ui@12306.com
qilu@qilu.edu
15.C类ip地址的正则表达式
section1:范围在192-223之间
section2和section3和section4范围:0-255之间
例如:193.168.23.1
16.监控/var/log/secure文件,统计出ssh错误连接本机次数超过十次的ip地址,拒绝这个ip地址再ssh连接过来(将这个ip地址写入到/etc/hosts.deny黑名单,/etc/hosts.allow是白名单)。
答案:
1.新建/lianxi目录,复制/etc/passwd到当前目录下。
mkdir /lianxi
cd /lianxi
cp /etc/passwd .
2.查找出当前passwd文件中以ftp开头或者mail开头的行,在屏幕输出。
cat passwd|grep "^ftp|^mail"
3.查找出当前passwd文件中首行不是以r、m、f开头的行,在屏幕输出。
cat passwd|grep -v "^r|^m|^f"
4.查找出当前passwd文件中以bash结尾的行。
cat passwd|grep "bash$"
5.查找出/etc/login.defs文件中的有效行(不显示空行和注释行)。
cat /etc/login.defs|egrep -v "^$|^#"
6.查找出/var/log/messages文档中有16个字母的单词。
cat /var/log/messages|egrep "\<[0-Z]{16}\>"
7.查找/etc/passwd文件里用户名包含liu同时使用bash的用户。
cat passwd|egrep "^[0-Z]*liu[0-Z]*" | egrep "bash"
或
cat /etc/passwd|egrep "^.*liu.*:x:"|egrep "bash"
或
cat passwd|egrep "^[0-Z_]*liu.*bash$"
8.查找/etc/ssh/sshd_config文件里的有效行。
cat /etc/ssh/sshd_config|egrep -v "^$|^#"
9.查找/etc/ssh/sshd_config文件里的包含连续2个数字的行。
cat /etc/ssh/sshd_config|egrep "\b[0-9]{2}\b"
10.查找出包含特殊字符的行。
cat /etc/ssh/sshd_config|egrep "[^0-Z]" --》包含特殊字符(^在[]里面,表示取反)
11.查找出不包含数字的行。
cat /etc/passwd|grep -v ".*[0-9].*"
12.查找出/var/log/messages里的ip地址出来。
cat /var/log/messages | egrep "\b([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])(\.([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]) ){3}\b"
13.写一个正则来表示出下面的网址,例如:
http://www.baidu.com
http://www.sina.com
http://www.163.com
http://www.12306.cn
http://www.qillu.edu
[root@liupeng lianxi]# cat dizhi.txt
http://www.baidu.com
http://www.sina.com
http://www.163.com
http://www.12306.cn
http://www.qillu.edu
[root@liupeng lianxi]# cat dizhi.txt|egrep --color "http://(.*\..*){2}"
http://www.baidu.com
http://www.sina.com
http://www.163.com
http://www.12306.cn
http://www.qillu.edu
[root@liupeng lianxi]#
14.写一个表示邮箱的正则,例如:
feng@qq.com
1234feng@163.com
meng.xianhui@yahoo.cn
liudenghua@sina.com
10001@qq.com
123_ui@12306.com
qilu@qilu.edu
PS:用户名最大16位。
[root@liupeng lianxi]# cat youxiang.txt
feng@qq.com
1234feng@163.com
meng.xianhui@yahoo.cn
liudenghua@sina.com
10001@qq.com
123_ui@12306.com
qilu@qilu.edu
[root@liupeng lianxi]# cat youxiang.txt|egrep "\b[0-Z._]{1,16}+@[0-Z]+\.[a-Z]+\b"
feng@qq.com
1234feng@163.com
meng.xianhui@yahoo.cn
liudenghua@sina.com
10001@qq.com
123_ui@12306.com
qilu@qilu.edu
[root@liupeng lianxi]#
15.C类ip地址的正则表达式
section1:范围在192-223之间
section2和section3和section4范围:0-255之间
例如:193.168.23.1
[root@liupeng lianxi]# cat ipip.txt
193.168.23.1
10.10.10.1
192.168.12.12
123.123.123.123
[root@liupeng lianxi]# cat ipip.txt|egrep "\b(19[2-9]|2[01][0-9]|22[0-3])(\.([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}\b"
193.168.23.1
192.168.12.12
[root@liupeng lianxi]#
16.监控/var/log/secure文件,统计出ssh错误连接本机次数超过十次的ip地址,拒绝这个ip地址再ssh连接过来(将这个ip地址写入到/etc/hosts.deny黑名单,/etc/hosts.allow是白名单)。
#!/bin/bash
while true
do
cat secure|egrep "Failed passwd"|egrep -o "\b192(\.([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}\b"|sort|uniq -c|sort -nr >secure.txt
deny=$(cat /etc/hosts.deny|egrep "^sshd:192(\.([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}$"|awk -F: '{print $2}')
echo $deny >deny_ip.txt
cat secure.txt|while read times IP
do
if (( $times>=2 ))
then
if ! grep $IP deny_ip.txt &>/dev/null
then
echo "sshd:$IP" >>/etc/hosts.deny&&echo "$IP has been written to /etc/hosts.deny"
fi
fi
done
sleep 1
done