grep、awk、sed命令详解1
grep、awk、sed基本参数
grep说明
grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。
格式:grep [options]
主要的参数:
-c:只输出匹配行的计数。 -i:不区分大 小写(只适用于单字符)。 -h:查询多文件时不显示文件名。 -l:查询多文件时只输出包含匹配字符的文件名。 -n:显示匹配行及 行号。 -s:不显示不存在或无匹配文本的错误信息。 -v:显示不包含匹配文本的所有行。
pattern正则表达式
主要参数:
\: 忽略正则表达式中特殊字符的原有含义。 ^:匹配正则表达式的开始行。 $: 匹配正则表达式的结束行。 \<</span>:从匹配正则表达 式的行开始。 \>:到匹配正则表达式的行结束。 [ ]:单个字符,如[A]即A符合要求。 [ - ]:范围,如[A-Z],即A、B、C一直到Z都符合要求。 .:所有的单个字符。 * :有字符,长度可以为0。
awk说明
awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。
awk的处理文本和数据的方式:它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。
awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。
gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的,在linux系统中已把awk链接到gawk,所以下面全部以awk进行介绍。
awk命令格式和选项
awk的语法有两种形式
awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)
命令选项:
-F fs or --field-separator fs :指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。 -v var=value or --asign var=value :赋值一个用户定义变量。 -f scripfile or --file scriptfile :从脚本文件中读取awk命令。 -mf nnn and -mr nnn :对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。 -W compact or --compat, -W traditional or --traditional :在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。 -W copyleft or --copyleft, -W copyright or --copyright :打印简短的版权信息。 -W help or --help, -W usage or --usage :打印全部awk选项和每个选项的简短说明。 -W lint or --lint :打印不能向传统unix平台移植的结构的警告。 -W lint-old or --lint-old :打印关于不能向传统unix平台移植的结构的警告。 -W posix :打开兼容模式。但有以下限制,不识别:/x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。 -W re-interval or --re-inerval :允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。 -W source program-text or --source program-text :使用program-text作为源代码,可与-f命令混用。 -W version or --version :打印bug报告信息的版本。
模式和操作
awk脚本是由模式和操作组成的:
pattern {action} 如$ awk '/root/' test,或$ awk '$3 < 100' test。
两者是可选的,如果没有模式,则action应用到全部记录,如果没有action,则输出匹配全部记录。默认情况下,每一个输入行都是一条记录,但用户可通过RS变量指定不同的分隔符进行分隔。
1.模式
模式可以是以下任意一个:
1)正则表达式:使用通配符的扩展集。
2)关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符(3)串或数字的比较,如$2>%1选择第二个字段比第一个字段长的行。
4)模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
5)模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
6)BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
7)END:让用户在最后一条输入记录被读取之后发生的动作。
2. 操作
操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:
1)变量或数组赋值
2)输出命令
3)内置函数
4)控制流命令
awk运算符
运算符 |
描述 |
= += -= *= /= %= ^= **= |
赋值 |
?: |
C条件表达式 |
|| |
逻辑或 |
&& |
逻辑与 |
~ ~! |
匹配正则表达式和不匹配正则表达式 |
< <= > >= != == |
关系运算符 |
空格 |
连接 |
+ - |
加,减 |
* / & |
乘,除与求余 |
+ - ! |
一元加,减和逻辑非 |
^ *** |
求幂 |
++ -- |
增加或减少,作为前缀或后缀 |
$ |
字段引用 |
in |
数组成员 |
uniq 去除重复命令
命令选项:
-c:输出重复行的重复次数 -d:尽输出重复的行 -f:忽略一些字段,只比较制定字段 -i:忽略大小写 -d:忽略一些字符,只比较指定的字符 -u:输出不重复行 -w:制定要比较字符位置
sort 排序命令
命令选项:
-b 忽略每行前面开始出的空格字符。 -c 检查文件是否已经按照顺序排序。 -d 排序时,处理英文字母、数字及空格字符外,忽略其他的字符。 -f 排序时,将小写字母视为大写字母。 -i 排序时,除了040至176之间的ASCII字符外,忽略其他的字符。 -m 将几个排序好的文件进行合并。 -M 将前面3个字母依照月份的缩写进行排序。 -n 依照数值的大小排序。 -o <输出文件> 将排序后的结果存入指定的文件。 -u 输出行中删除重复项 -r 以相反的顺序来排序。 -k 指定排序列数。 -t<分隔字符> 指定排序时所用的栏位分隔字符。 +<起始栏位>-<结束栏位> 以指定的栏位来排序,范围由起始栏位到结束栏位的前一栏位。
sed说明
sed是非交互式的编辑器。它不会修改文件,除非使用shell重定向来保存结果。默认情况下,所有的输出行都被打印到屏幕上。
sed编辑器逐行处理文件(或输入),并将结果发送到屏幕。具体过程如下:首先sed把当前正在处理的行保存在一个临时缓存区中(也称为模式空间),然后处理临时缓冲区中的行,完成后把该行发送到屏幕上。sed每处理完一行就将其从临时缓冲区删除,然后将下一行读入,进行处理和显示。处理完输入文件的最后一行后,sed便结束运行。sed把每一行都存在临时缓冲区中,对这个副本进行编辑,所以不会修改原文件。
# sed [-nefr] [动作]
选项与参数:
-n:使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。 -e:直接在命令列模式上进行 sed 的动作编辑; -f:直接将 sed 的动作写在一个文件内, -f filename 则可以运行 filename 内的 sed 动作; -r:sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法) -i:直接修改读取的文件内容,而不是输出到终端。
动作说明: [n1[,n2]]function
n1, n2:不见得会存在,一般代表『选择进行动作的行数』,举例来说,如果我的动作是需要在 10 到 20 行之间进行的,则『 10,20[动作行为] 』 function: a:新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~ c:取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行! d:删除,因为是删除啊,所以 d 后面通常不接任何咚咚; i:插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行); p:列印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行~ s:取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!