awk--模式(pattern)

 

摘要

在上文 awk(1)-简述我们将简要描述了awk的主要使用方向和构成(由一个或多个模式-动作组成),本小节主要讲述awk的各种模式。

ps:例子中使用的输入文件(如countries)内容可由awk(1)-简述获取

 

模式是什么

首先我们通过一个命令来看awk能完成什么事来看:

//打印当前目录下面,大小大于1K(1024)的文件或目录名称
ls -l | awk 'NR > 1 && $5 > 1024 {print $9}'

NR指当前输入行的计数,$5在上一章已经讲述,加粗字体部分即为模式,在此处模式的主要功能为匹配.

 

有多少种模式

awk programing中作者将awk的模式分为6种,在此处我更倾向于分为下面4类模式:

(1).BEGIN/END(开始和结束执行的特殊模式)

(2).express(判断表达式,包含单个或使用逻辑运算符组合的多个判断,如: $5 != 10 || $3 == 3)

(3)./reg/(正则表达式的匹配)

(4)./pattern1/,/pattern2/(范围表达式)

 

模式的使用

(1).BEGIN/END

BEGIN/END 不匹配任何输入行,BEGIN在awk读取输入前执行,END在awk完成输入后执行

比如:

awk 'BEGIN{FS="\|\|";printf("%.4s\t%.10s\n","ID","Name")} {printf("%.4s\t%.10s\n",$1,$2)}' worker.txt

输出为:

ID    Name
1      Jack
2      Lip

FS说明:

FS为awk的内置变量,用于设定当前输入记录的分隔符. 默认为空格,可以使用命令行选项-F替代.

如上面的例子等价于:

awk  -F  "\|\|" 'BEGIN{printf("%.4s\t%.10s\n","ID","Name")} {printf("%.4s\t%.10s\n",$1,$2)}' worker.txt

上面的例子中我们设定FS="\|\|"(多字符,且添加转义字符\),那么FS设定的匹配规则是什么?

如果将一个字符赋值给FS,那么记录的分隔符就为单个字符(不管是否为元字符)

如果将一个字符串(length>1)赋值给FS,那么它就会替换成一个正则表达式.

关于awk的正则表达式的匹配规则,我们将在(3)/reg/字符串匹配描述.

 

(2).express

该模式主要是 常规运算符如: <,>..,配合常规逻辑运算符 &&,||..等使用,使用方式类似于:

if(express){ 
    //do something 
}

如:

//输出去除了ls –l的总用量一行的内容
ls -l | awk 'NR > 1 {print}' 

输出为:

-rw-rw-r-- 1 * * 266 11月 21 13:16 countries
-rw-rw-r-- 1 * *   0 11月 21 13:16 empty.txt
-rw-rw-r-- 1 * *  61 11月 17 13:20 worker.txt

ps:print 后面不接任何内容的话,默认为$0

 

(3)/reg/ 字符串匹配

一个字符串匹配模式 (string-matching pattern) 测试一个字符串是否包含一段可以被正则表达式

关于/reg/的匹配存在3种方式:

(1)./reg/ //匹配整个输入行即没有使用默认的字段即使用$0

如:

awk '/Asia/ {printf("%-5s belongs to Asia\n",$1)}' countries

输出为:

USSR  belongs to Asia
China belongs to Asia
India belongs to Asia
Japan belongs to Asia

 

(2).expression ~/reg/ //匹配单个被分隔的项目,比如$1,$2

如:

awk '$4 ~ /Asia/ {printf("%-5s belongs to Asia\n",$1)}' countries

输出为:
USSR  belongs to Asia
China belongs to Asia
India belongs to Asia
Japan belongs to Asia

 

(3).expression !~/r //不包含为true

如:

awk '$4 !~ /Asia/ {printf("%-7s not belongs to Asia\n",$1)}' countries 

输出为:
Canada  not belongs to Asia
USA     not belongs to Asia
Brazil  not belongs to Asia
Mexico  not belongs to Asia
France  not belongs to Asia
Germany not belongs to Asia
England not belongs to Asia

 

另外awk支持regular符号表见下(元字符)

元字符 含义 例子
\

转义字符

awk  -F "\|\|" {print $1} worker.txt
//打印每条记录的第1个字段
^

匹配一行的开始,在[]中表示非

awk '/^[^U]/ {print}' countries
//匹配不以U为开头的记录
$

匹配一行的结束

awk '/a$/ {print}' countries
//记录匹配以a为结尾
[ ] [ ] 匹配一个范围如:[A-Za-z]或[^0-9] awk '$1~/[A-G]/ {print $0}' countries
//第1个字段匹配存在A-G字母(范围)
| awk '$1~/A|B/ {print $0}' countries
//第1个字段匹配存在A或B字母
( ) 匹配一个字符串 awk '$1~/(USA)/ {print $0}' countries
//第1个字段匹配为USA的记录
.

匹配任意1个字符(有且仅有1个)

awk '$4 ~/^A..a$/ {print}' countries
//第4个字段匹配以A开头且结尾为a的4个字符的
+

匹配1或多个字符

awk '$1~/US+/ {print $0}' countries
//第1个字段匹配存在US或USS等多个S
?

匹配 0 或 1个字符

awk '$1~/S?/ {print $0}' countries
//第1个字段匹配存在0或1个S
* 匹配0或多个字符 awk '$1~/S*/ {print $0}' countries
//第1个字段匹配存在0或多个个S

 

awk中正则的组合符号主要是直接组合(reg1)(regs)或reg1|reg2
比如:
(Asian|European|North American) (male|female) (black|blue)bird
一共匹配12种字符串,由Asian male blackbird到North American female bluebird

如在worker.txt新增1行:3**Mario||27||female||Japan

此时FS可以写成:

awk -F "\|\| | \*\*" '{print $1}' worker.txt

ps:

由[](范围-互补)中,内部的字符即使需要直接对元字符的匹配也不需要进行转义,
比如: ^[^^] 匹配不以^字符开始的字符串.

采用其余方式使用元字符进行字符串匹配的都需要对元字符进行转义,
比如:

awk '/^(\^)+/ {print $0}' countries //匹配以一个^或多个^^为首的字符串

(4)pattern1,pattern2(范围表达式)

一个范围模式由两个逗号分开的模式组成,范围匹配如:/reg1/,/reg2/

比如:

awk '/USSR/,/Japan/ {print}' countries //文档匹配USSR到Japan 的字符串

输出:
USSR 8649 275 Asia
Canada 3852 25 North America
China 3705 1032 Asia
USA 3615 237 North America
Brazil 3286 134 South America
India 1267 746 Asia
Mexico 762 78 North America
France 211 55 Europe
Japan 144 120 Asia

 

总结

本节主要描述了构成awk两大元素之一的模式(pattern),awk的模式主要可以分为4类:

1.BEGIN/END

2.常规表达式

3.正则匹配

4.范围匹配

 

其中正则表达式的难度最大,需要更多时间的加以实践

 

参考

posted @ 2016-11-22 23:08  GoMountains  阅读(377)  评论(0编辑  收藏  举报