sed编辑器和awk

1.sed的执行过程
2.awk
- （1）工作原理

1.sed的执行过程

sed是一种流编辑器，流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据，这些命令要么从命令行中输入，要么存储在一个命令文本文件中。

（1）sed 的工作流程

读取：目标文件的每行数据一次假如到缓冲区（模式空间）里，默认从第一开始读取
执行 : 使用定义的增删改查命令来处理读取到换从区行数据
显示 : 将处理后的行数据输出到屏幕显示

sed -e '操作命令' -e '操作命令' 目标文件... ##在命令行指定操作命令处理文件行数据

在一个脚本文件里定义操作命令
sed -f 文件名目标文件... ##使用指定脚本文件里的操作命令处理文件行数据
sed -i ##直接根据操作命令修改原文件行数据
sed -e ##增删改查的命令格式

sed -e '删操作' -e '查操作' 目标文件     

sed -e '{
删操作
查操作
}' 目标文件

常用选项
-e	示用指定命令来处理输入的文本文件，只有一个操作命令时可省略，一般在执行多个操作命令使用
-f	表示用指定的脚本文件来处理输入的文本文件
-h	显示帮助
-n	禁止sed编辑器输出，但可以与p命令一起使用完成输出
-i	直接修改目标文本文件
-r	表示支持扩展正则表达式

常用操作
s	替换，替换指定字符
d	删除，删除选定的行
a	增加，在当前行下面增加一行指定内容
i	插入，在选定行上面插入一行指定内容
c	替换，将选定行替换为指定内容
y	字符转换，转换前后的字符长度必须相同
p	打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与“-n”选项一起使用
=	打印行号
l(小写L)	打印数据流中的文本和不可打印的ASCII字符（比如结束符$、制表符\t）

（2）打印内容

sed编辑器有2种寻址方式：
（1）以数字形式表示行区间
（2）用文本模式来过滤出行

p（打印行内容） = （打印行号） 1（打印ASCII字符）
sed -n -e '行号p' ##根据行进行打印
sed -n -e '起始行号，终止行号p' ##根据行区间进行打印
sed -n -e'/字符串/p' ##根据字符串匹配行进行打印
sed -n -r -e '/正则表达式/p' ##根据正则表达式匹配行进行打印

（3）删除

sed -e '行号区间d'
sed -e '/字符串/d'
sed -r -e '正则表达式/p'd

（4）替换

4种替换标记：
数字：表明新字符串将替换第几处匹配的地方
g：表明新字符串将会替换所有匹配的地方
p：打印与替换命令匹配的行，与-n一起使用
w 文件：将替换的结果写到文件中

 替换          s （字符串替换）  c（整行内容替换）  y（对应字符替换）

sed -e '行号区间 s/old/new/g'          
sed -n -e '行号区间 s/old/new/gp'    #打印被修改的行   

     
sed -e '行号区间 s/old/new/gw 保存文件'     #保存被修改的行


sed -e '/字符串/ s/old/new/g'
sed -r -e '/正则表达式/ s/old/new/g'
sed -r -e 's/(xxx)(xxx)(xxx)/\3\2\1/'

sed -e '行号c 新行内容'
sed -e '/字符串/c 新行内容'

sed -e 'y/旧字符/新字符/'      #注：新字符和旧字符的长度要一致

（5）打印被修改的行

sed -e '行号区间 s/old/new/gw 保存文件'     ##保存被修改的行   
sed -e '/字符串/' s/old/new/g
sed -r -e '' s/old/new/g
sed -r -e '' s/old/new/g

（6）插入

插入    a（在指定行下面插入行内容）   i（在指定行上面插入行内容）    r（在指定行下面插入整个文件内容）

sed -e '行号区间a 行内容'
sed -r -e '/字符串或正则/a 行内容'

sed -e '行号区间i 行内容'
sed -r -e '/字符串或正则/i 行内容'

sed -e '行号区间r 文件'

（7）复制粘贴

复制粘贴   H（复制指定行到剪切板）    G（将剪切板内容粘贴到指定行下面）
sed -e '1,3H;$G'           #将1-3行内容复制粘贴到最后一行下面
sed -e '1,3{H;d};$G'       #将1-3行内容剪切粘贴到最后一行下面

2.awk

（1）工作原理

逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。
sed命令常用于一整行的处理，而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的，执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”；还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

awk -F '字段分隔符' '条件表达式 {操作}' 文件

常见的内建变量
FS	列分割符。指定每行文本的字段分隔符，默认为空格或制表位。与"-F"作用相同
NF	当前处理的行的字段个数
NR	当前处理的行的行号（序数）
$0	当前处理的行的整行内容
$n	当前处理行的第n个字段（第n列）
FILENAME	被处理的文件名
RS	行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是'\n'

BEGIN模式表示，在处理指定的文本之前，需要先执行BEGIN模式中指定的动作；
awk再处理指定的文本，之后再执行END模式中指定的动作，END{}语句块中，往往会放入打印结果等语句

当getline左右无重定向符“<”或“|”时，awk首先读取到了第一行，就是1，然后getline，就得到了1下面的第二行，就是2，因为getline之后，awk会改变对应的NF，NR，FNR和 $0 等内部变量，所以此时的$ 0的值就不再是1，而是2了，然后将它打印出来。
当getline左右有重定向符“<”或“|”时，getline则作用于定向输入文件，由于该文件是刚打开，并没有被awk读入一行，只是getline读入，那么getline返回的是该文件的第一行，而不是隔行。

FNR：awk当前读取的记录数，其变量值小于等于NR（比如当读取第二个文件时，FNR是从0开始重新计数，而NR不会）。
NR==FNR：用于在读取两个或两个以上的文件时，判断是不是在读取第一个文件

awk -F '字段分隔符' '条件{print NR; print $0}' 文件        #换行输出行号和行内容  
awk -F '字段分隔符' '条件{print NR} 条件{print $0}' 文件

awk -F '字段分隔符' '条件{print NR,$0}' 文件               #同行输出行号和行内容
awk -F '字段分隔符' 'NR==n {print $0}'        #输出 第n行的 整行内容
awk -F '字段分隔符' 'NR==n {print $1}'        #输出 第n行的 第一个字段的内容
awk -F '字段分隔符' 'NR==n {print $1,$NF}'        #输出 第n行的 第一个字段和最后一个字段的内容
awk -F '字段分隔符' 'NR==n,NR==M {print $1}'        #输出 第n行到第m行的 第一个字段的内容
awk -F '字段分隔符' 'NR>=n&&NR<=M {print $1}'        
awk -F '字段分隔符' 'NR==n||NR==M {print $1}'        #输出 第n行和第m行的 第一个字段的内容
awk -F '字段分隔符' '/字符串/ {print $1}'        #输出 包含指定字符串的行的 第一个字段的内容
awk -F '字段分隔符' '/正则表达式/ {print $1}'        #输出 匹配正则表达式的行的 第一个字段的内容
awk -F '字段分隔符' '$1>=n {print $0}'        #输出 第一个字段的数值大于等于n的 整行内容
                       == != >= > <= <
awk -F '字段分隔符' '$1~"字符串" {print $0}'        #输出 第一个字段包含指定字符串的 整行内容
                       ~(包含) !~(不包含) ==(等于) !=(不等于)

free | awk '/Mem:/{print int($3/$2*100)"%"}'            #内存使用率
top -b -n1 | awk -F, '/%Cpu\(s\)/{print $4}' | awk '{print 100-$1"%"}'    #CPU使用率
df | grep -w "/" | awk '{print $5}' | awk -F% '{print $1}'     #磁盘分区容量使用率
df | grep -w "/" | awk '{print $5}' | awk -F% '{print 100-$1"%"}'     #磁盘分区空闲使用率

awk '(NR%2)==1 {print $0}'     #输出奇数行
awk '{print $0; getline}'
sed -n 'p;n'

awk '(NR%2)==0 {print $0}'     #输出偶数行
awk '{getline; print $0}'
sed -n 'n;p'

awk 'BEGIN {...}; 条件{...}; END {...}'  文件
  BEGIN {...}   表示处理文件前要执行的操作
  条件{...}     表示对匹配满足指定条件的文件行内容要执行的操作
  END {...}     表示处理完文件所有行内容后要执行的操作

awk -F '字段分隔符' 'BEGIN{OFS="输出的字段分隔符"}; {$1=$1; print $0}'      #修改字段分隔符

awk '{控制语句条件 {操作}}' 文件
    awk 'if(条件表达式) {操作}' 文件                  #行内容满足if的条件则执行操作
    awk '变量=条件表达式?值1:值2; {操作}' 文件        #行内容是否条件表达式，如果条件成立则变量取值1，条件不成立则变量取值2
    awk 'BEGIN{执行循环前的操作; while("命令" | getline) 每次循环的操作; 执行循环完后的操作}'     #使用while循环对每行内容执行操作

awk '/Failed password/{a[$11]++}; END{for(i in a) {print i, a[i]}}' /var/log/secure    #通过awk数组统计日志文件里IP出现的次数

awk '/Failed password/{a[$11]++}; END{for(i in a) if(a[i]>5){print "sshd:"i}}' /var/log/secure >> /etc/hosts.deny      #将出现超过5次的IP导入到黑名单里