1. awk 模式扫描和处理语言
  1.1 awk常用选项
  1.2 awk示例
	1.2.1 抽取2列
	1.2.2 tab键分割列
	1.2.3 筛选包含.html的行
	1.2.4 添加标题,添加内容,上面添加的内容被认为为1个字段,没有tab分割
	1.2.5 拆分
	1.2.6 统计
	1.2.7 统计各个connection状态
	1.2.8 每个用户的进程的占了多少内存
	1.2.9 打印99乘法表
  1.3 awk内置变量
  1.4 print和printf
2. sed 用于过滤和转换文本的流编辑器
  2.1 sed常用选项
  2.2 sed示例
	2.2.1 去掉html里的tag
	2.2.2 去掉html里的高度参数
  2.3 正则表达式的一些最基本的东西
3. 更多参考链接

曾经的上古神器。如今失落的艺术,正被Python等取代。

  • awk (1977)用程序的方式分析文本 模式扫描和处理语言
  • sed (1975)用程序的方式编辑文本 用于过滤和转换文本的流编辑器

1. awk 模式扫描和处理语言

简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。

1.1 awk常用选项

POSIX options: GNU long options: (standard)

  • -f progfile --file=progfile 指定包含awk程序的文件progfile的路径名。
  • -F fs --field-separator=fs 定义输入字段分隔符。fs是一个字符串或者是一个正则表达式,如-F:。
  • -v var=val --assign=var=val 赋值一个用户定义变量。

1.2 awk示例

1.2.1 抽取2列

$ ls -l |awk '{print $3,$9}'
toma t2.txt
toma temp.html

1.2.2 tab键分割列

$ ls -l |awk '{print $3"\t"$9}'
toma t2.txt
toma temp.html

1.2.3 筛选包含.html的行

$ ls -l |awk -F: '/.html/'
-rw-r--r-- 1 toma users   28240 Apr  6 15:19 systemd.html
-rw-r--r-- 1 toma users   33323 Apr 10 23:23 temp.html

$ ls -l |awk '/.html/{print $3"\t"$9}'

如下3个等效
$ awk '/pci/{print $3"\t"$9}' hwinfo.txt
$ awk '/pci/{print $3,$9}' OFS="\t" hwinfo.txt
$ cat hwinfo.txt | awk '/pci/{print $3,$9}' OFS="\t"

/etc/passwd文件先指定:分割字段,再使用tab分隔输出
$ awk -F ':' '{print $1"\t"$7}' /etc/passwd
$ awk -F ':' '{print $1,$7}' OFS="\t" /etc/passwd
$ awk -F ':' 'BEGIN {print "name,shell"} {print $1,$7} END {print "blue,/bin/nosh"}' OFS="\t" /etc/passwd

1.2.4 添加标题,添加内容,上面添加的内容被认为为1个字段,没有tab分割

$ awk -F ':' 'BEGIN {print "name","shell"} {print $1,$7} END {print "blue","/bin/nosh"}' OFS="\t" /etc/passwd

$ awk -F ':' 'BEGIN {print "name","shell"} {print $1,$7} {print "blue","/bin/nosh"} {print "blue2","/bin/nosh"}' OFS="\t" /etc/passwd

1.2.5 拆分

$ ls -l |awk '{print > $2}' OFS="\t"
不指定列,仅拆分,原样输出,后面的OFS="\t"不起作用。
$ ls -l |awk '{print $2,$3,$5,$9}' OFS="\t" |awk '{print > $1}'
这样即可tab分割后再拆分,或者:
ls -l |awk '{print $2,$3,$5,$9 > $2}' OFS="\t"

若第一列是标题,可参考如下方式
$ awk 'NR!=1{print > $2}' ss0.txt

1.2.6 统计

$ ls -l |awk '{sum+=$5} END {print sum}'
20639404
$ ls -l |awk '{sum+=$5} END {print "size is:",sum/1024/1024,"Mb"}'
size is: 19.6929 Mb
过滤4096大小的文件(一般都是文件夹)
$ ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'
[start]size is  0
[end]size is  19.6499 M

1.2.7 统计各个connection状态

$ awk 'NR!=1{a[$2]++;} END {for (i in a) print i ", " a[i];}' ss0.txt
ESTAB, 732
SYN-SENT, 2

$ awk '{sum[$1]+=1} END {for(k in sum) print k ":" sum[k]}' ss0.txt
$ awk '{sum[$1]+=1} END {for(k in sum) print k ":" sum[k]}' ss0.txt | sort -n -r -k 2 -t ':'

1.2.8 每个用户的进程的占了多少内存

$ ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'
systemd+, 2316KB
rtkit, 1920KB
polkitd, 14452KB
dbus, 3540KB
toma, 5678404KB
root, 269856KB

1.2.9 打印99乘法表

$ seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'
1x1=1
1x2=2 2x2=4
1x3=3 2x3=6 3x3=9
1x4=4 2x4=8 3x4=12 4x4=16
1x5=5 2x5=10 3x5=15 4x5=20 5x5=25
1x6=6 2x6=12 3x6=18 4x6=24 5x6=30 6x6=36
1x7=7 2x7=14 3x7=21 4x7=28 5x7=35 6x7=42 7x7=49
1x8=8 2x8=16 3x8=24 4x8=32 5x8=40 6x8=48 7x8=56 8x8=64
1x9=9 2x9=18 3x9=27 4x9=36 5x9=45 6x9=54 7x9=63 8x9=72 9x9=81

1.3 awk内置变量

awk有许多内置变量用来设置环境信息,这些变量可以被改变,下面给出了最常用的一些变量。

ARGC 命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入域分隔符,等价于命令行 -F选项. 默认是空格或Tab
NF 浏览记录的域的个数. 当前记录中的字段个数,就是有多少列
NR 已读的记录数. 就是行号.
OFS 输出域分隔符. 字段分隔符, 默认也是空格
RS 控制记录分隔符. 默认为换行符
ORS 输出记录分隔符. 默认为换行符
$0 当前记录(这个变量中存放着整个行的内容)
$1~$n 当前记录的第n个字段,字段间由FS分隔

1.4 print和printf

awk中同时提供了print和printf两种打印输出的函数。

其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。这里,逗号的作用与输出文件的分隔符的作用是一样的,只是后者是空格而已。

printf函数,其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时,printf更加好用,代码更易懂。

$ awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
$ awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

2. sed 用于过滤和转换文本的流编辑器

2.1 sed常用选项

-n, --quiet, --silent suppress automatic printing of pattern space 抑制图案空间的自动打印
--debug annotate program execution 注释程序执行
-e script, --expression=script add the script to the commands to be executed 将脚本添加到要执行的命令中
-f script-file, --file=script-file add the contents of script-file to the commands to be executed 将script-file的内容添加到要执行的命令中
--follow-symlinks follow symlinks when processing in place 在处理时遵循符号链接
-i[SUFFIX], --in-place[=SUFFIX] edit files in place (makes backup if SUFFIX supplied) 编辑文件(如果提供SUFFIX,则进行备份)
-l N, --line-length=N specify the desired line-wrap length for the `l' command 为`l'命令指定所需的换行长度
--posix disable all GNU extensions. 禁用所有GNU扩展。
-E, -r, --regexp-extended use extended regular expressions in the script (for portability use POSIX -E). 在脚本中使用扩展的正则表达式(为了便携性使用POSIX -E)
-s, --separate consider files as separate rather than as a single, continuous long stream. 将文件视为单独的而不是单个连续的长流。
--sandbox operate in sandbox mode (disable e/r/w commands). 在沙箱模式下运行(禁用e / r / w命令)
-u, --unbuffered load minimal amounts of data from the input files and flush the output buffers more often 从输入文件加载最少量的数据并更频繁地刷新输出缓冲区
-z, --null-data separate lines by NUL characters 由NUL字符分隔的行
--help display this help and exit 显示此帮助并退出
--version output version information and exit 输出版本信息并退出

 

2.2 sed示例

用s命令替换
$ sed "s/my/Hao Chen's/g" pets.txt
注意:上面的sed并没有对文件的内容改变,只是把处理过后的内容输出,如果你要写回文件,你可以使用重定向,如:
$ sed "s/my/Hao Chen's/g" pets.txt > hao_pets.txt
或使用 -i 参数直接修改文件内容:
$ sed -i "s/my/Hao Chen's/g" pets.txt

在每一行最前面加点东西: #
$ sed 's/^/#/g' pets.txt

在每一行最后面加点东西: ---
$ sed 's/$/ --- /g' pets.txt

只替换第3行的文本。
$ sed "3s/my/your/g" pets.txt
只替换第3到第6行的文本。
$ sed "3,6s/my/your/g" pets.txt

只替换每一行的第一个s:
$ sed 's/s/S/1' my.txt

只替换每一行的第二个s:
$ sed 's/s/S/2' my.txt

只替换第一行的第3个以后的s:
$ sed 's/s/S/3g' my.txt

多个匹配
如果我们需要一次替换多个模式,可参看下面的示例:(第一个模式把第一行到第三行的my替换成your,第二个则把第3行以后的This替换成了That)
$ sed '1,3s/my/your/g; 3,$s/This/That/g' my.txt
上面的命令等价于:(注:下面使用的是sed的-e命令行参数)
sed -e '1,3s/my/your/g' -e '3,$s/This/That/g' my.txt

2.2.1 去掉html里的tags

$ sed 's/<[^>]*>//g' html.txt

错误示例: sed 's/<.*>//g' html.txt 会有问题. 上面的'[^>]' 指定了除了>的字符重复0次或多次。

2.2.2 去掉html里的高度参数

查找所有高度参数
$ grep height=\"..\" 1.html
<td align="left" height="20">RS</td>
<td align="left" height="23">ORS</td>

删除表格内高度参数
$ sed 's/height=\"..\">/>/g' 1.html |grep align
<td align="left" >OFS</td>
<td align="left" >RS</td>
写入文件
$ sed -i 's/height=\"..\">/>/g' 1.html

其他命令及操作
a命令就是 append, i命令就是insert,它们是用来添加行的

Pattern Space (模式空间); Hold Space (保留空间)
注意: Append (附加) 与拷贝不同,会附加到目标位置原始内容换行后.

  • g: 将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
  • G: 将hold space中的内容append到pattern space\n后
  • h: 将pattern space中的内容拷贝到hold space中,原来的hold space里的内容被清除
  • H: 将pattern space中的内容append到hold space\n后
  • x: 交换pattern space和hold space的内容

 


2.3 正则表达式的一些最基本的东西

 

^ 表示一行的开头。 如:/^#/ 以#开头的匹配。
$ 表示一行的结尾。 如:/}$/ 以}结尾的匹配。
\< 表示词首。 如:\<abc 表示以 abc 为首的詞。
\> 表示词尾。 如:abc\> 表示以 abc 結尾的詞。
. 表示任何单个字符。  
* 表示某个字符出现了0次或多次。  
[ ] 字符集合。 如:[abc] 表示匹配a或b或c,还有 [a-zA-Z] 表示匹配所有的26个字符。如果其中有^表示反,如 [^a] 表示非a的字符


3. 更多参考链接

https://coolshell.cn/articles/9070.html
AWK 简明教程

内建变量,参看: http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din-Variables
流控方面,参看: http://www.gnu.org/software/gawk/manual/gawk.html#Statements
内建函数,参看: http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din
正则表达式,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Regexp

https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

https://coolshell.cn/articles/9104.html
SED 简明教程
http://www.gnu.org/software/sed/manual/sed.html

https://zh.wikipedia.org/wiki/正则表达式
https://en.wikipedia.org/wiki/Regular_expression