Linux命令篇 - awk 命令

awk

gawk - pattern scanning and processing language;

awk:gawk是Unix中原始awk程序的GNU版本,强大之处在于可以写脚本来读取文本行的数据,然后处理并显示数据;

格式:gawk [参数]

常用参数:

OPTIONS 意义
f 从文件程序文件读取AWK程序源,而不是从第一个命令行参数。可以使用多个-f(或--file)选项
-F 指定描绘一行中数据字段的文件分隔符
-v 定义gawk程序中使用的变量和默认值
-mr 指定数据文件中的最大记录大小

awk常用内建变量:

OPTIONS 意义
$0 当前记录(这个变量中存放着整个行的内容)
$1 ~ $n 当前记录的第n个字段,字段间由FS分隔
FS 输入字段分隔符 默认是空格或Tab
NF 当前记录中的字段个数,就是有多少列
NR 已经读出的记录数,就是行号,从1开始,如果有多个文件话,这个值也是不断累加中。
FNR 当前记录数,与NR不同的是,这个值会是各个文件自己的行号
RS 输入的记录分隔符, 默认为换行符
OFS 输出字段分隔符, 默认也是空格
ORS 输出的记录分隔符,默认为换行符
FILENAME 当前输入文件的名字

参考案例:

# 案例数据
$ vi netstat.txt
Proto Recv-Q Send-Q Local-Address          Foreign-Address             State
tcp        0      0 0.0.0.0:3306           0.0.0.0:*                   LISTEN
tcp        0      0 0.0.0.0:80             0.0.0.0:*                   LISTEN
tcp        0      0 127.0.0.1:9000         0.0.0.0:*                   LISTEN
tcp        0      0 coolshell.cn:80        124.205.5.146:18245         TIME_WAIT
tcp        0      0 coolshell.cn:80        61.140.101.185:37538        FIN_WAIT2
tcp        0      0 coolshell.cn:80        110.194.134.189:1032        ESTABLISHED
tcp        0      0 coolshell.cn:80        123.169.124.111:49809       ESTABLISHED
tcp        0      0 coolshell.cn:80        116.234.127.77:11502        FIN_WAIT2
tcp        0      0 coolshell.cn:80        123.169.124.111:49829       ESTABLISHED
tcp        0      0 coolshell.cn:80        183.60.215.36:36970         TIME_WAIT
tcp        0   4166 coolshell.cn:80        61.148.242.38:30901         ESTABLISHED
tcp        0      1 coolshell.cn:80        124.152.181.209:26825       FIN_WAIT1
tcp        0      0 coolshell.cn:80        110.194.134.189:4796        ESTABLISHED
tcp        0      0 coolshell.cn:80        183.60.212.163:51082        TIME_WAIT
tcp        0      1 coolshell.cn:80        208.115.113.92:50601        LAST_ACK
tcp        0      0 coolshell.cn:80        123.169.124.111:49840       ESTABLISHED
tcp        0      0 coolshell.cn:80        117.136.20.85:50025         FIN_WAIT2
tcp        0      0 :::22                  :::*                        LISTEN
  • 输出首行
$ cat netstat.txt |awk 'NR==1'
  • 输出最后一行
$ cat netstat.txt |awk 'END{print}'
  • 输出指定列(未指定格式)
# 其中单引号中的被大括号括着的就是awk的语句; 注意,其只能被单引号包含;
# 其中的$1..$n表示第几例;注:$0表示整个行
# 下面两个命令是等价的
$ awk '{print $1, $4}' netstat.out
$ cat netstat.out | awk '{print $1, $4}'
  • 输出指定列(指定格式)
# awk的格式化输出和C语言的printf没什么两样
$ awk '{printf "%-8s %-8s %-8s %-18s %-22s %-15s\n",$1,$2,$3,$4,$5,$6}' netstat.out
  • 过滤记录
# 过滤记录 - 简单过滤
# 过滤条件为: 第三列的值为0 && 第6列的值为LISTEN
# "=="为比较运算符; 其他比较运算符:!=、>、<、>=、<=
$ awk '$3==0 && $6=="LISTEN" ' netstat.txt

# 过滤记录 - 其它条件使用
$ awk '$6=="LISTEN" {print $0}' netstat.out 

# 过滤记录 - 表头显示
# 需要表头的话,可以引入内建变量NR
$ awk '$3==0 && $6=="LISTEN" || NR==1 ' netstat.out 

# 复杂过滤记录 - 格式化输出
$ awk '$3==0 && $6=="LISTEN" || NR==1 {printf "%-20s %-20s %s\n",$4,$5,$6}' netstat.out 
  • 指定分隔符
# 下面两个命令是等价的
$ awk  'BEGIN{FS=":"} {print $1,$3,$6}' /etc/passwd
$ awk -F: '{print $1,$3,$6}' /etc/passwd

# 指定多个分隔符: awk -F '[;:]'

# 以\t作为分隔符输出
$ awk  -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd
  • 正则匹配
# 匹配FIN状态
#  ~ 表示模式开始;  /xxx/中是模式,这是一个正则表达式的匹配;
$ awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.out

# 匹配WAIT字样的状态
$ awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.out

# 使用 “/FIN|TIME/” 来匹配 FIN 或者 TIME
$ awk '$6 ~ /FIN|TIME/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.out

# awk可以像grep一样的去匹配第一行
$ awk '/LISTEN/' netstat.out

# 模式取反
# 下面两个等价
$ awk '$6 !~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.out
$ awk '!/WAIT/ {print NR,$4,$5,$6}' OFS="\t" netstat.out
  • 拆分文件
# 按第6例分隔文件
$ awk 'NR!=1{print > $6}' netstat.out

# 把指定的列输出到文件
$ awk 'NR!=1{print $4,$5 > $6}' netstat.out

# 复杂拆分文件
$ awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt";
else if($6 ~ /LISTEN/) print > "2.txt";
else print > "3.txt" }' netstat.out
  • 统计
# 统计所有的C文件、CPP文件、H文件的文件大小总和
$ ls -l  *.cpp *.c *.h | awk '{sum+=$5} END {print sum}'

# 统计各个connection状态的用法
$ awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.out

# 统计每个用户的进程的占了多少内存
$ ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'
posted @ 2022-08-19 16:27  HOsystem  阅读(115)  评论(0编辑  收藏  举报