awk基础 [马哥视频]

awk基础

1.1 print

print的使用格式：

print item1,item2, ….

要点：

各项目自己使用逗号隔开，而输出时则以空白字符分隔；
输出的item可以为字符串或者数值，当前记录的字段(如$1)、变量或者awk的表达式；数值会先转换为字符串，而后再输出；
print的命令后面的item可以省略，此时其功能相当于print $0，因此，如果想输出空白行，则需要使用print “”；

例子：

# awk ‘BEGIN {print “line one\nline two\nline three”}’

awk –F: ‘{print $1,$2}’ /etc/passwd

内置变量：

ORS(output record sepatator) （输出换行符）

OFS(output field separator)　　（输出分隔符）

FS: field separator，默认是空白字符；（输入文件分隔符）

RS:Record separator，默认是换行字符；（输入文件换行符）

NR:The number of input records，awk命令所处理记录数：如果有多个文件，这个数目会把处理的多个文件中行统一计数；

NF:Number of Field，当前记录的field个数；

FNR:与NR不同的是，FNR用于记录正处理的行是当前这一文件中被总共处理的行数；

ARGV:数组，保存命令行本身这个字符串，如awk’{print $0}’ a.txt b.txt这个命令中，ARGV[0]保存awk,ARGV[1]保存a.txt；

ARGC:awk命令的参数的个数；

1.2 printf

print命令的使用格式：

printf format,item1,item2,….

要点：

与其print命令的最大不同是，printf需要指定format；
format用于指定后面的每个item的输出格式；
printf语句不会自动打印换行符；

format 格式的指示符都以%开头，后跟一个字符；如下：

%c:显示字符的ASCII码：

%d,%i: 十进制整数:

%e,%E:科学计数法显示数值；

%f:显示浮点数；

%g,%G:以科学计数法的格式或浮点数的格式显示数值；

%s:显示字符串

%u:无符号整数

%%:显示%自身

修饰符：

N：显示宽度；

-：做对齐

+：显示数值符号

例子：

#awk –F: ‘{printf “%-15s %\n”,$1,$3 }’ /ect/passwd

1.3输出重定向

print items > output-file

print items >> output-file

特殊文件描述符：

/dev/stdin:标准输入

/dev/stdout:标准输出

/dev/stderr:错误输出

/dev/df/N:某特定文件描述符，如/dev/stdin 就相当于/dev/fd/0;

例子

awk –F: ‘{printf “%-15s %i\n”,$1,$3 > “/dev/stderr”}’ /etc/passwd

1.4 awk

awk 的使用格式：

awk [options] ‘script’ file1,file2,….

awk [options] ‘PATTERN {action}’ file1,file2, ….

-F :

1、算术操作符：

-x:负值

+x:转换为数值

x^y:

x**y:次方

x*y:

x+y:

x-y:

x%y:

2、字符串操作符：

只有一个，而且不用写出来，用于实现字符串连接：

3、赋值操作符：

=、+=、-=、*=、/=、%=、^=、**=

++、--

需要注意的是，如果某模式为=号，此时使用/=/可能会有语法错误，应该为/[=]/代替

4、布尔值

awk中，任何非0值或非空字符串都为真，反之就为假；

5、比较操作符：

x < y 、x <=y、 x > y、 x >= y、 x == y、x != y、x ~ y、x !~ y

6、表达式间的逻辑关系：

&& 、||

7、条件表达式

selector?if-true-exp:if-false-exp

$A > $B ? echo $A:echo $B

8、行数调用

function_name (para1,para2)

9、awk的模式：

awk ‘program’ input-file1 input-file2 ….

其中的program为：

pattern { action }

….

常见的模式类型：

Regexp:正则表达式，格式为/regular expression/
expression:表达式，其中值非0或为空字符时满足条件，如:$1 ~/foo/ 或 $1==”magedu”,用运算符~(匹配)和~！(不匹配)
Ranges：指定的匹配范围，格式为pat1,pat2
BEGIN/END:特殊模式，仅在awk命令执行前运行一次或结束前运行一次
Empty(空模式)：匹配任意输入行；

常见的Action有：

Expressions
Control statements
Compound statements
Input statements
Output statements

/正则表达式/：使用通配符的扩展集

关系表达式：可以用下面运算符表中的关系符进行操作，可以是字符串或者数值的比较多，如$2 > $1 选择第二个字段比第一个字段长的行。

awk –F: ‘$3 >= 500 {print $1}’ /ect/passwd

awk –F: ‘$3 >= 500 {print $1,$3}’ /ect/passwd

awk –F: ‘$3 >= 500 {printf “%-15s%s\n”,$1,$3}’ /ect/passwd

awk –F: ‘$3 >= 500 {print “Username UID”;printf “%-15s%s”,$1,$3}’ /ect/passwd

模式匹配表达式：

模式，模式：指定一个行的范围，该语法不能包括BEGIN和END模式

BEGIN：让用户指定在第一条输入记录被处理之前说发生的动作，通常可在这里设置全局变量。

END:让用户在最后一条输入记录被读取之后发生的动作

awk –F: ‘BEGIN {print “Username UID”}{printf “%-15s%s”,$1,$3}’ /ect/passwd

awk –F: ‘BEGIN {print “Username UID”}{printf “%-15s%s”,$1,$3}END{print “Over}’ /ect/passwd

awk ‘BEGIN {print “a” “b”}’

awk –v FS=: ‘{print $1}’ /etc/passwd

awk ‘BEGIN{FS=”:”}{print $1}’ /ect/passwd

例子：

vim a.txt

welcome to redhat linux.

how are you?

awk ‘{print $1}’ a.txt

df –h

df –h |awk ‘{print $1}’

df –hP |awk ‘{print $1}’

awk ‘{print $1}’ /etc/passwd

awk –F: ‘{print $1}’ /etc/passwd

awk –F: ‘{print $1,$7}’ /etc/passwd

awk –F: ‘{print $NF}’ /etc/passwd

awk ‘{print $NF}’ a.txt

awk –v FS=: ‘{print $NF}’ /etc/passwd

awk ‘{print $1 $2}’ a.txt

awk ‘{print $1,$2}’ a.txt

awk -v OFS=: ’{print $1,$2}’ a.txt

awk ‘{printf “%-10s,%s\n”,$1,$2}’ a.txt

awk ‘{printf “%-10s%s\n”,$1,$2}’ a.txt

awk ‘BEGIN{print “a” “b”}’

awk –F: ‘$1 ~ /^root/{print $3,$4,$NF}’ /ect/passwd

awk –F: ‘$1 !~ /^root/{print $3,$4,$NF}’ /ect/passwd

awk –F: ‘/bash/{print $0}’ /etc/passwd

awk –F: ‘/bash/{print $1}’ /etc/passwd

控制语句

if-else

语法：if(condition) (then-body) else{[ else-body]}

例子：

awk –F: ‘{if ($1==”root”) print $1, “admin”;else print $1,”Common User”}’ /ect/passwd

awk –F: ‘{if($1==”root”) printf “%-15s:%s\n”,$1,”Admin”;else printf “%-15s:%s\n”,$1, “Common User”}’ /ect/passwd

awk –F: -v sum=0 ‘{if ($3 >= 500) sum ++}END {print sum}’ /ect/passwd

while

语法：while (condition) {statements1;statements2;……}

awk –F: ‘{i=1;while (I <= 3) {print $1;i++}}’ /ect/passwd

awk –F: ‘ $1!~/root/ {i=1;while (i <= 4) {print $1;i++}}’ /ect/passwd

awk –F: ‘ $1!~/root/ {i=1;while (i <= NF) {print $1;i+=2}}’ /ect/passwd

awk –F: ‘ $1!~/root/ {i=2;while (i <= NF) {print $1;i+=2}}’ /ect/passwd

do-while

语法： do {statements1;statements2;……} while (condition)

awk –F: ‘{i=1; do {print $i;i++} while (i <=3) }’ /etc/passwd

语法：for (variable assignment;condition; iteration process ) { statements1;statements2;…}

awk –F: ‘{for (i=1;i<=3;i++) print $1}’ /ect/passwd

awk –F: ‘{for (i=1;i<=NF;i+=2) print $i}’ /ect/passwd

for循环还可以用来遍历数组元素：

语法：for (i in array ) {statements1;statements2;……}

awk –F: ‘$NF!~/^$/{BASH[$NF]++}END{for (A in BASH) {printf “%15s:%i\n”,A,BASH[A]}}’ /ect/passwd

case

语法：seitch (expression) {case VALUE or /ERGEXP/: statements1;statements2;…default statements0 }

break和continue

常用于循环或case语句中

提前结束对本行文本的处理，并接着处理下一行

awk 内置变量：

FS: field separator，默认是空白字符；

RS:Record separator，默认是换行字符；

NR:The number of input records，awk命令所处理记录数：如果有多个文件，这个数目会把处理的多个文件中行统一计数；

NF:Number of Field，当前记录的field个数；

FNR:与NR不同的是，FNR用于记录正处理的行是当前这一文件中被总共处理的行数；

ARGV:数组，保存命令行本身这个字符串，如awk’{print $0}’ a.txt b.txt这个命令中，ARGV[0]保存awk,ARGV[1]保存a.txt；

ARGC:awk命令的参数的个数；

for I in {0 .. 10}

print A[$i]

for (A in ARRAY) {print ARRAY[A]}

awk ‘BEGIN {A[“m”]=”hello”;A[“n”]=”world”;for (B in A) print A[B]}’

awk 中使用数组

array[index-expression]

index-expression 可以使用任意字符串，需要注意的是，如果某数据组元素事项不存在，那么在应用其时，awk会自动创建此元素并初始化为空串；因此，要判断某数据组中是否存在某元素，需要使用index in array的方式。

要遍历数组中的每一个元素，需要使用如下的特殊结构：

for (var in array) {statement1,…}

其中，var用于引用数组下标。

例子：

netstat –n|awk ‘/^tcp/ {++S[$NF]} END {for (a in S) print a,S[a]}’

netstat –ant |grep “LISTEN” |wc –l

netstat –ant | awk ‘$1 ~/tcp/{S[$NF]++}END{for (A in S) print A,S[A]}’

netstat –ant | awk ‘$1 ~/tcp/{S[$NF]++}END{for (A in S) printf “%10s:%s\n”, A,S[A]}’

awk –F: ‘$NF!~/^$/ {SHELL[$NF]++}END{for (A in SHELL) print A,SHELL[A]}’ /etc/passwd

awk ‘{IP [$1]++}END{for (A in IP) print A,IP[A]}’ /usr/local/apach/logs/access_log

每出现一被/^tcp/模式匹配到的行，数组S[$NF]就加一，NF为当前匹配的行的最后一个字段，此处用其值作为数组S的元素索引；

awk ‘{count[$1]++};END {for (url in counts) print counts[url],url}’ /var/log/httpd/access_log

用法与上一个例子相同，用于统计日志文件中IP地址的访问量

awk ‘BEGIN{A[x]=”hello”;A[y]=”world”;print A[x],A[y]}’

awk的内置函数

split (string, array [,fieldsep [,seps]])

功能：将string表示的字符串以filedsep为分隔符进行分割，并将分隔后的结果保存至array为名的数组中

netstat –ant | awk ‘/:80/ {split($5,clients,”:”);IP[client[1]]++}END {for (i in IP) {print IP[i],i}}’|sort –rn |head -50

将netstat 查询结果的第五列开始以：为分隔符开始切割，切割的结果保存在client数组中，并累计。

length([string])

功能：返回string字符串中字符的个数

substr (string ,start[, length])

功能：取string字符串中的子串，从start开始，取length个，start从1开始计数；

system(command)

功能：执行系统command并将结果访问至awk命令

systime()

功能：取系统当前时间

awk [options] ‘PATTERN{cation}’ input_file

posted on 2014-08-18 10:40 BruceWoo 阅读(1189) 评论(0) 编辑收藏举报

刷新页面返回顶部