shell文本处理工具总结

为了效率，应该熟练的掌握自动化处理相关的知识和技能，能力就表现在做同样的一件事情，可以做的很好的同时，耗时还很短。

再次总结shell文本处理的相关规则，对提高软件调试效率，加快数据处理分析都很有帮助。

Shell常用的文本处理工具，主要是4种：sed，grep，gawk，正则表达式。

1. sed

这是一种流式编辑器，区别于普通的交互式编辑器的地方是在处理文本前，需要提前设定好一组规则，它会每次读取一行，按照规则匹配输出，循环往复，直到处理完毕为止；

命令格式为： sed options script file,

具体如下： sed [-Ealn] command [file ...] sed [-Ealn] [-e command] [-f command_file] [-i extension] [file ...]

常用的处理命令有：

sed -e 'cmd1; cmd2; cmd3 ... ;cmdn' file ，连续执行多个命令；

sed -n，不要自动为每个命令生成输出；

sed 's/a/b/' file, 将file里面的a换成b；

sed '/pattern/d' file, 将file里面匹配pattern的行删除；

sed '/pattern/{n;d}' file,将file里面匹配pattern的行找到，将其下一行删除；

sed '/pattern/{N; s/a/b/}' file, N选项会使得文本行仍然用换行符处理，但是会合并当成一行处理，所以这里的意思是将file里面匹配pattern的行找到，将下一行和在一起，将里面的a替换成b；

sed 'N; /pattern/D' file, 将file里面两行一起的处理，匹配到pattern后，将前面的一行删除，D也是一个多行处理选项;

sed 在shell脚本中使用多个命令，{ 和 }都单独各占一行； sed ‘1a \xxx’第一行后追加1行 sed ‘1i \xxx’第一行后插入1行 sed -n '^$/!p' 打印全部文件内容 sed -n '1,10p' 打印1-10行内容

2. grep

命令格式为：grep options pattern file

grep -r 递归目录查找

grep -n 打印行数

grep -i 忽略大小写

grep -v 反向匹配查找

grep -F -f 可以用来处理获得两个文件的交集，或者差集；

3. gawk

gawk是awk的gnu版本，该工具让流编辑器上了一层台阶，可以提供一个类编程的环境，而不再仅仅是一个命令行工具。

命令格式为： gawk options program file，

gawk会从标准输入等待数据的输入，program用一对花括号来定义；数据字段变量，$0表示整个文本行，$n表示第n个数据段一些重要的内建变量：FILEDWIDTH, FS,RS,OFS,ORS； BEGIN表示处理前运行的操作， END表示处理结束后运行的操作；支持if，while，do-while等函数定义；

4. sort

sort -k 指定排序的栏；

sort -r 反转排序，数字默认的是由小到大；

sort -n 指定按照数字排序；

5. 正则表达式

在shell中熟练使用sed和awk的关键在于对正则表达式的运用，正则表达式，就是一套有用户定义的，用来过滤数据流的规则。

正则表达式的难点在于，linux环境下不同的应用程序可能有不同的正则表达式规则。

再次总结通用的两种类型： BRE（basic regular expression），基本上都支持这种规则， ERE（extend regular expression），扩展类型，部分应用程序支持（gawk可以，sed不行）；

BRE的规则主要有：

^ 行首

$ 行尾

. 任意字符，除了换行符

* 任意字符出现一次或者多次

[] 区间匹配

[^abc] 排除字符组

[[:alpha:]] 匹配字母，不区分大小写

[[:alnum:]] 匹配数字和字母，不区分大小写

[[:digit:]] 匹配数字

[[:blank:]] 匹配空格或者tab

[[:print:]] 匹配可打印字符

[[:punct:]] 匹配标点符号

[[:space:]] 匹配任意空白字符

[[:lower:]] 匹配小写

[[:upper:]] 匹配大写

ERE的规则主要有：

？前面的字符出现0次或者1次

+ 前面的字符出现1次或者多次

| 可以将两个过滤表达式按照或的关系连起来

{m} 前面的字符出现m次

{n,m} 前面的字符出现n-m次

() 将括号内部的匹配聚合成一个整体，当成一次标准字符使用；

posted @ 2018-12-12 20:26 doctorJ 阅读(683) 评论(0) 收藏举报

刷新页面返回顶部