awk文档
awk笔记
简介
Awk 是一种用于处理数据和生成报告的脚本语言。awk 命令编程语言不需要编译,并允许用户使用变量、数字函数、字符串函数和逻辑运算符。
Awk 是一个实用程序,它使程序员能够以语句的形式编写简短但有效的程序,这些语句定义要在文档的每一行中搜索的文本模式以及在行中找到匹配项时要采取的操作。Awk 主要用于模式扫描和处理。它搜索一个或多个文件以查看它们是否包含与指定模式匹配的行,然后执行相关操作。
Awk 是开发者的名字的缩写 – Aho、Weinberger 和 Kernighan。
我们可以用 AWK 做什么?
- AWK 操作:
(a)逐行扫描文件
(b)将每个输入行拆分为字段
(c)将输入行/字段与模式进行比较
(d)对匹配的行执行操作 - 用途:
(a)转换数据文件
(b)生成格式化报告 - 编程结构:
(a)格式化输出行
(b)算术和字符串运算
(c)条件和循环
代码
结构
awk awk一些设置 '选择 _某些条件 {操作行为 }' 输入文件 > 输出文件
打印所有行
假如employee.txt
文件内容如下
ajay manager account 45000
sunil clerk account 25000
varun manager sales 50000
amit manager account 47000
tarun peon sales 15000
deepak clerk sales 23000
sunil peon sales 13000
satvik director purchase 80000
执行命令将打印
awk '{print}' employee.txt
输出
ajay manager account 45000
sunil clerk account 25000
varun manager sales 50000
amit manager account 47000
tarun peon sales 15000
deepak clerk sales 23000
sunil peon sales 13000
satvik director purchase 80000
打印匹配的行
选择带有manager
的一行
awk '/manager/ {print}' employee.txt
输出
ajay manager account 45000
varun manager sales 50000
amit manager account 47000
打印特定单词
要打印ajay 45000
类似的样式,如果该行有 4 个单词(又称字段、片段),则分别存储在 \undefined、\undefined 中
另外,$0 代表整行
awk '{print $1,$4}' employee.txt
输出
ajay 45000
sunil 25000
varun 50000
amit 47000
tarun 15000
deepak 23000
sunil 13000
satvik 80000
打印特定单词附内置变量
-
NR:行号
NR 命令保存当前输入记录的数量。请记住,记录通常是行。Awk 命令对文件中的每个记录执行一次模式/操作语句。
-
NF: 每行的最后一个单词
NF 命令会统计当前输入记录中的字段数量。(每行的单词总数?)
-
FS: FS 命令包含字段分隔符,用于在输入行上划分字段。默认为“空白”,即空格和制表符。可以将 FS 重新分配给另一个字符(通常在 BEGIN 中)以更改字段分隔符。
-
RS: RS 命令存储当前记录分隔符。由于默认情况下,输入行是输入记录,因此默认的记录分隔符是换行符。
-
OFS: OFS 命令存储输出字段分隔符,Awk 打印字段时会用该分隔符分隔字段。默认为空格。每当 print 有多个用逗号分隔的参数时,它会在每个参数之间打印 OFS 的值。
-
ORS: ORS 命令存储输出记录分隔符,Awk 打印输出行时,它会分隔输出行。默认为换行符。print 会自动将 ORS 的内容输出到打印内容的末尾。
输出NR
这里的NR起到行号作用
awk '{print NR,$0}' employee.txt
输出
1 ajay manager account 45000
2 sunil clerk account 25000
3 varun manager sales 50000
4 amit manager account 47000
5 tarun peon sales 15000
6 deepak clerk sales 23000
7 sunil peon sales 13000
8 satvik director purchase 80000
输出第3~6行
awk 'NR==3, NR==6 {print NR,$0}' employee.txt
输出
3 varun manager sales 50000
4 amit manager account 47000
5 tarun peon sales 15000
6 deepak clerk sales 23000
输出NF
NF为每行的最后一个字段
awk '{print $1,$NF}' employee.txt
输出
ajay 45000
sunil 25000
varun 50000
amit 47000
tarun 15000
deepak 23000
sunil 13000
satvik 80000
打印特定文本
假如cat > geeksforgeeks.txt
输出为
A B C
Tarun A12 1
Man B6 2
Praveen M42 3
打印用-分隔的行号
awk '{print NR "- " $1 }' geeksforgeeks.txt
输出
1 - A
2 - Tarun
3 – Manav
4 - Praveen
打印特定列
awk '{print $2}' geeksforgeeks.txt
输出
B
A12
B6
M42
打印非空行
NF 应该不小于 0,并且用户还必须打印行号
awk 'NF <= 0 {print NR}' geeksforgeeks.txt
查找最长的行
查找哪个行最长以及行的长度
awk '{ if (length($0) > max) max = length($0) } END { print max }' geeksforgeeks.txt
输出
19
打印匹配项的所有行数
awk 'END { print NR }' geeksforgeeks.txt
输出
4
打印超过10个字符的行
awk 'length($0) > 10' geeksforgeeks.txt
输出
Tarun A12 1
Praveen M42 3
查找特定列的任意字符串
输出第3列的单词相当于B6
的每行
awk '{ if($3 == "B6") print $0;}' geeksforgeeks.txt
输出
# 无输出
打印1~n的第一个数值的平方
打印到1~6的平方
awk 'BEGIN { for(i=1;i<=6;i++) print "square of", i, "is",i*i; }'
square of 1 is 1
square of 2 is 4
square of 3 is 9
square of 4 is 16
square of 5 is 25
square of 6 is 36