掌握Sed命令

带书签PDF版，喜欢的话，欢迎多提意见和建议，你的支持是血蝙蝠最大的前进动力！

http://download.csdn.net/detail/challenge_c_plusplus/6480007

Part0 Sed预备知识

0.1 什么是Sed

Sed即StreamEDitor中3个大写字母的组合，是一种“流编辑器”。所谓流编辑器，就是面向流的编辑器。所谓流就是应用程序的输入经过程序处理，然后输出到标准输出。通俗点说，sed就是一种通过输入流，比如文件、键盘的输入，然后处理，最终输出到标准输出（即屏幕）的一种文本编辑器。它是unix-like系统下的一个常用文本处理命令。

0.2 Sed相关的正则表达式

读者请注意，通常我们把grep和sed视为一组，因为它们都使用shell的基础正则表达式，我们把egrep和awk视为一组，它们可以使用扩展的正则表达式。这里我们只介绍sed相关的正则表达式，即shell基础正则表达式语法。先说明，不要担心学不会，因为非常简单！

.        代表除去换行符以外的任意单个字符

例1：c.t 可以代表cat，cut，c!t等等

*       不同于通配符，代表重复*前边一个字符任意次，即0次或多次

例2：hello_*world!代表helloworld!,或者hello_world!,或者hello__world!等等

[…]   代表它内部包括的字符的任意一个

例3：a[1234]c代表a1c，或者a2c，或a3c，或a4c

^       放在正则表达式的开始处，代表一行的开始位置，放在[]中的开始处，代表不是[]中字符的任意字符

例4：^a[^1234]c代表文本中某一行以axc三个字符开头，其中x为不是1234的任意字符

$       放在正则表达式的结尾处，代表一行的结束

例5：abc$ 代表文本中以abc结尾的文本行

\{n,m\}    代表重复前边一个字符n到m次中的任何一种。变种有\{n\}重复前边一个字符n次，\{n,\}重复前边一个字符至少n次。

例5：abc\{2,3\}代表abcc或者abccc

\<     代表一个单词的开始

例6：\<Hello代表包含以Hello开头的单词的行

\>     代表一个单词的结束

例7：Hello\>代表包含以Hello结尾的单词的行

&      代表匹配内容

例8：s/hello/[&]/g,会将文本中的hello都替换为[hello],其中&代表匹配的hello

\n     n是1-512的任意数字，代表前边第n个符合$…$的匹配

例9：s/$[1-9]*$abc$[A-Z]*$/\2\1/g表达式，会将123abcABC转换为ABC123，其中\1代表$[1-9*]\], \2代表\([A-Z]*$

PartI Sed基本原则

1.1 Sed命令的作用规则

1.      脚本文件中的所有命令会顺序作用于待处理文本中的每一行；

2.      地址过滤作用可以使脚本中的命令只作用于与地址匹配的特定行；

3.      原始文本文件不会被改变，被改变的是原始文件的一个备份，处理后的备份行会输出。

1.2 模式空间(The Pattern Space or The Temporary Buffer)

存放sed脚本命令处理的当前行，即当前处理行的备份，命令实际改变的是这份备份，最后输出的也是这份备份。

1.3 Sed命令地址详解

(四种地址情况) 其中，地址可以是“正则表达式、行号、行中部分文本信息”三种

1．无地址脚本中命令作用于所有行，例如 d 删除所有行

2．一个地址命令作用于与地址匹配的对应行，例如 1d删除第一行，2d删除第二行

3．逗号分隔的两个地址命令作用于两个地址之间的所有行，例如1,/^$/d删除第一行到第一个空行之间的所有行

4．地址后直接跟！号，命令作用于所有与地址不匹配的行例如1!d删除除第一行外的所有行

1.4 大括号的使用

作用：嵌套地址，组合命令。左大括号必须在一行的末尾，右大括号必须独立成行，大括号后边直接跟回车，不能有空格。

例1：删除1-5行中的空白行

1,5{

         /^$/d

}

例2：从1-5行中删除含linux或unix的行

1,5{

         /linux/d

         /unix/d

}

1.5 Sed应用场景

1 同时编辑多个同类文件

2 修改文件内容

3 提取文件内容

1.6 Sed命令的两种使用方式

方式一：使用脚本文件，语法：sed [other options] –f script.sed file

方式二：直接使用命令行，语法 sed [options] ‘command’ file

Sed命令使用时，可以直接在命令行使用，将命令通过单引号括起来，也可以将命令按行写在一个文本文件中，然后使用Sed的-f选项来加载脚本文件中的Sed命令集合。

1.6.1 命令行方式

         最简答的命令行方式，比如sed‘1d’ file，表示删除文本文件file中的第一行；

         复杂点的就是包含多个命令的情况，有三种解决方式：第一种，在一个单引号里使用分号分隔各个命令，比如sed ‘1d;5d;9d’ file，就是删除第1，5，9行文本；第二种，使用多个-e选项分隔各个命令，比如sed –e ‘1d’ –e ‘5d’ –e ‘9d’ file；第三种，使用换行符来分隔各个命令，比如，其中#代表shell的命令提示符，>代表键入回车后的提示符：

# sed ‘1d <键入回车>

> 2d <键入回车>

> 3d’ file

更为复杂点的是，命令中含有用于过滤文本行的地址信息，同时要求执行多个命令，这时候要使用大括号{}。比如

# sed ‘5,/^$/{   <键入回车>

> /hello/d   <键入回车>

>s/word/words/g   <键入回车>

> }’ file

其中，5,/^$/ 代表仅针对第5行到后边第一个空白行间的文本行，/hello/代表含有hello的文本行，s命令代表将word全部替换为words，g标记代表处理对应行中所有出现的word，没有g代表仅处理对应行中第一个word。

注意：有些情况使用大括号可以不用键入回车，但是键入回车肯定可以保证不出问题，所以建议始终在使用大括号时键入回车！

1.6.2 脚本文件方式

了解了上边的命令行方式，就好了解脚本方式了。脚本方式就是将多条命令放置到一个文本文件中，其格式如下：

/address/{

Cmd1;

Cmd2;

…

Cmdn;

}

这种形式其实和sed命令行使用大括号是一样的，只是由于命令多了，写在文件了比较方便，而且便于重用。其中，内部的cmd可以是以上形式的嵌套，就是大括号里面还可以再有地址，然后在使用大括号，到括号里面又是命令。

将以上内容存于文件中，然后使用以下命令，即可执行：

sed –f script.file file

PartII 初级Sed命令

2.1 基本Sed命令语法

Sed命令语法：[address]command

Sed语法：sed [options] [actions]file

1.      Sed –f sed.script file

2.      Sed ‘actions’ file

3.      Sed在命令行使用多条命令的三种方式：

使用多个-e选项，每个后边接一条命令；

使用分号分隔多条命令；

在写闭合的单引号之前使用回车，每条命令后边加回车

Sed使用#作为注释符号，#号后边紧跟n，相当于使用-n参数，不默认输出文本内容

2.2 Sed主要选项

-n      抑制命令自动输出patternspace中的内容，默认情况下，pattern space中的内容，如果执行完所有处理命令，结果会被输出，使用该选项使得patternspace中的内容不会自动输出，通常该选项和p命令一起使用，以便输出当前处理行，单独使用p命令，同一行会被输出两次。

-f       用于使用sed脚本的情况，后接脚本文件名

-e      后接单引号括起来的命令串，使用多个命令，可以通过多次使用-e选项实现

-i       直接修改原文件内容，默认不输出到屏幕

-r      在命令中使用扩展的正则表达式，扩展正则表达式，我们会在<<掌握awk命令>>中提到，强大的选项！！！（该选项不在本文讨论范文内）

2.3 12种基本命令

Subsititution：即s命令，文本替换命令（常用）

语法：[address]s/pattern/replacement/flag

Address代表要处理的行，可以是行号，正则表达式，特定行中的部分文本片段

Pattern代表模式字符串

Replacement代表用来替换模式字符串的字符串

Flag有n,g,p,w file四种，n代表（1-512）中一个数字，表示替换操作作用于当前行中出现的第几个pattern串；g代表替换操作处理当前行中出现的所有pattern串，p代表打印当前行，该标志通常与-n选项连用，表示只打印处理过的行；w file表示将处理行写入文件file中。

注意：分隔用的/可以使用其他合法符号，比如！，：等，最后，不使用任何标志表示仅作用于第一个匹配

Replacement中可用的三种特殊符号：& 代表pattern匹配的字符串，\n代表由第几个$pattern$匹配的串，\代表转义字符，在Replacement中只有这三个特殊符号，其他都不是特殊符号，不需要转义

Delete,即命令d，删除命令，语法：[address]d（常用）

删除匹配形式的行，注意是删除整行，而不是仅删除行中匹配的模式字符串

Append,Insert,Change，即命令a，i，c，追加、插入、更改命令，语法[address](a|i|c) \replacement

Append在指定行后插入，insert在指定行前插入，change用replacement替换指定行

List命令，即l命令，列出指定行中的不可打印字符，如tab键，换行符等

Transform命令，即命令y，转换命令，最特殊的一个命令，所有其他命令都是对应单词的首字母，只有这个命令不是对应单词首字母，因为test(t)命令已经存在了。

语法：y/abc/ABC/ 该命令用于对应字符转换，类似于tr，但没有tr命令应用范围广，abc与ABC必须字符个数相等，对应转换，而不能使用[0-9]这种形式，即a转换为A，b转换为B，c转换为C。

Print命令，即p命令，打印匹配行，通常与选项-n一起使用，不使用-n同一行会被打印两次。特殊符号=，与p命令联合使用，可以输出行号，行号独立成行，=等号必须是地址后边第一个出现，在p命令之前（常用）

例子：输出第一行到第一个空行中的所有行，并输出行号

1,/^$/{

=

p

}

Next命令，即n命令。输出当前行，并将下一行输入到模式空间中。（常用）

注意：出现在n命令之前的命令不会作用于新输入的行，出现在n命令之后的命令也不会作用于n命令输出去的行

Read与Write命令，即r和w命令，如法[address](r|w)file

r,将文件读入到当前行之后

w,将当前行写入到文件

Quit命令，即q命令，遇到地址行就退出sed，其中匹配的地址行也要输出

其中，s,d,p,n是最常用的几个命令，y是最特殊的一个命令，因为其它所有命令都是以单词首字母命名，它不是。

PartIII 高级Sed命令

3.1多行模式空间与备份空间

多行模式空间(MultilinePattern Space)：就是在模式空间中放置输入文件的多个行内容。

备份空间(The Hold Space)：用于备份Pattern Space中的内容的空间。

3.210种高级Sed命令

三组高级sed命令：

1操作多行模式空间的命令（N，D，P）

2处理模式空间与备份空间内容交换的命令（H，h，G，g，x）

3 sed脚本控制流命令（b，t）

N,D,P命令分别为n,d,p命令的大写形式，其含义类似，略有不同：

N命令，与n不同，它不输出模式空间中的当前行，而是将下一行也输入到模式空间中，当前行与下一行之间插入一个’\n’，以下为示意图：

图1. 调用N命令后的Multiline Space

注意：调用N后只有最初和最后有^$标记，\n前后并没有这些标记

D命令不同于d命令，d命令删除Pattern Space中的内容，而D命令仅删除Multiline Space中第一个’\n’之前的内容，如图1 中，即删除“The Unix Operating System”，而“Is A interesting System”仍然存在。同时，它使得脚本的控制流转到脚本文件的第一行，跳过该命令的后续命令。

P命令不同于p命令，p命令打印Pattern Space中的内容，而P命令仅打印Multiline Space中第一个’\n’之前的内容，如图1中，即仅打印“The Unix Operating System”.

H和h命令，hold之意，将Pattern Space中的内容备份到Hold Space中，大写命令是追加到Hold Space中，小写命令是覆盖HoldSpace中的内容；

G和g命令，get之意，即将Hold Space中的内容取到Pattern Space中，大写代表追加，小写代表覆盖。

x命令，交换Pattern Space和Hold Space中的内容。

b命令（branch）和t命令（test）用于控制sed脚本流程。

b命令语法：[address]b[label]

例子：

:Hello

         Command

         Command

         /address/b Hello

         Command

b命令使得脚本控制流转到:Hello的下一行，如果没有使用标签，则直接跳转到脚本结尾。

t命令语法：[address]t [label]

例子：

s/\n//

t

command

t命令含义是，如果上边的替换命令s成功，则跳转到标签处，如果没有标签，跳转到脚本结尾，如果不成功则继续执行后续命令。

总结，掌握Sed，掌握Shell的基本正则表达式，12中基本Sed命令+10中高级Sed命令，Sed命令除y命令(transform)外，其它命令都是英文单词首字母，很好记忆。当然，这里不是Sed的全部命令，其它一些命令不太常用，就不再介绍。最后一部分，我们以一些常见的sed命令处理案例，来加深理解上边的理论介绍部分，以便彻底掌握这个实用工具。

PartIV 实践练习

[d删除命令]

$ sed ‘2d’ file         #删除file中的第2行

$ sed ‘2,$d’ file            #删除第2行到最后一行的所有行

$ sed ‘/hello/’ file      #删除包含hello的行

$ sed ‘1d;5d;10d’ file    #删除第1，5，10行

$ sed ‘/^$/d’ file        #删除file中的空行

$ sed ‘5,10!d’ file       #删除5-10以外的所有行

总结：d命令有三种地址模式，行号，行中字符串片段，正则表达式，对于后两种需要使用//包围地址，如/hello/和/^$/，还有一点，两个地址间的逗号，表示作用范围为两个地址之间，！代表取补集

[s 替换命令]

$ sed ‘s/test/Test/’ file              #用Test替换每行中第一个test

$ sed ‘s/test/Test/5’ file              #用Test替换每行中第5个出现的test

$ sed ‘s/test/Test/g’ file              #用Test替换每行中所有test

$ sed –n‘s/^test/Test/p’ file          #-n与p合用，仅显示发生替换操作的行，

#Test替换以test开头的行的开头的test

$ sed ‘s/^192.168.0.1/&localhost’ file # &表示匹配到的内容，用

#192.168.0.1localhost替换以192.168.0.1

#开头的行的开头的192.168.0.1

$ sed –n‘s/$love$able/\1rs/p’ file   #\1代表$love$匹配到的内容，用lovers

#替换包含love的行中第一个出现的love

$ sed ‘s#10#100#g’ file                 #用100代替每行出现的10，这里#等于/

$ sed –n‘/test/,/check/p’ file        #仅打印第一包含test的行到第一个包含

#check的行之间的所有行

$ sed –n‘5,/^test/p’ file              #打印第5行到第一个以test开头的行

#之间的所有行

$ sed ‘/test/,/check/s/$/HelloEnd’      #在第一个包含到第一个包含check的行

#后边追加HelloEnd

$ sed –e‘1,5d’–e‘s/test/check/’ file #删除1-5行的内容，将文件中每行第一个

#test替换为check，前边命令影响后边命令

总结：命令中体现了p命令的使用，通常与-n选项连用，s命令是最常用的，注意分隔符可以用其他符号代替，注意逗号可以表示地址区间，以及//包围地址的使用

[n下一行命令]

$ sed ‘/test/{n;s/aa/bb/}’ file       #读到含test的行，输出该行，然后

#读入下一行，用bb替换下一行出现

#的第一个aa，循环执行以上动作

该命令可以写为以下方式

$ sed ‘/test/{ <键入换行符>

>n <键入换行符>

>s/aa/bb <键入换行符>

>}’ file

总结：n命令前边的命令不会作用于下一行，n命令后边的命令不会作用于当前行

[r 文件读入命令]

$ sed ‘/test/rfile2’ file1    #将file2的内容插入到file1中含有test的每一行之后

[w 文件写入命令]

$ sed ‘/test/wfile2’ file1   #将file1中每个含有文本test的行追加到file2中

[a 追加命令]

$ sed ‘/test/a\thisis append line’ file #在含有文本test的行后边插入一行内容为

                                        #thisis append line的文本

[i 插入命令]

$ sed ‘/test/i\thisis a insert line’ file #类似如a命令，在对应行前边插入

[c 替换命令]

$ sed ‘3,5c\thisis a change line’file    #将文件file的第3-5行内容替换为一行，

                                          #其内容为this is a change line

[y 转换命令]

$ sed ‘1,10y/abcd/ABCD/’ file      #将file前10行中所有的字符a,b,c,d转换为大写

[q 退出命令]

$ sed ‘10q’ file                   #处理完（默认为打印）第10行，sed命令结束

                                  #q命令与b,t等命令可以用于流程控制

[N 下一行追加命令]

问题描述：用sed实现去换行的功能，即tr –d‘\n’的功能

sed –fscript.file file   #其中script.file为sed脚本文件，名字可以随便取

                          #file为待处理文件

Script.file脚本文件内容如下：

{

N             #将下一行追加到模式空间，现在空间中有两行内容，中间用\n分隔

s/\n//        #删除\n,执行完这里sed对下一行继续处理

}

当然，左大括号{左边可以通过加地址信息限制处理哪几行，这个功能当然可以不写脚本文件，直接在命令行执行，如下：

sed ‘N;s/\n//’ file

再强调一次，脚本文件都可以写成命令行方式，放过来也成立，就是看你觉得怎么方便而已！

[N P D 循环] #联合使用N-P-D，操作控制流

问题描述：如下文本文件，如果UNIX System出现以下情况：UNIX是一行的最后一个单词，System是下一行的第一个单词，则将UNIX System替换为UNIX Operating System，新的换行符在System之后。

file内容如下：

Here are examples of the UNIX

System. Where UNIX

System appears, it should be the UNIX

Operating System.

处理后输出结果为：

Here are examples of the UNIX Operating System.

Where UNIX Operating System appears, it should be theUNIX

Operating System.

实现脚本如下：

/UNIX$/{

    N   #在UNIX结尾的行后追加下一行，中间有\n分隔

    s/\n$System.*$/ Operating \1\n/ #替换,这里的特殊用法稍后讲述

    P   #输出\n之前的内容

D   #删除\n之前的内容，并跳转至脚本第一行，即/UNIX$/{处

}

备注：N是在模式空间追加一行，两行之间有一个分隔符\n；P是打印多行模式空间中第一个\n之前的内容，也就是第一行；D是删除第一个\n之前的内容，并使得控制流程跳转至脚本第一行，如果D后边还有命令，执行D后，后边的命令式执行不到的。

如果将脚本中替换命令那行换为以下一句，输出结果略有不同：

s/\nSystem/ Operating System\n/

输出结果为：

Here are examples of the UNIX Operating System

.Where UNIX Operating System

appears, itshould be the UNIX

Operating System.

这里面有一些标点的问题，因此，我们做了特别处理，说明如下：

$System. *$代表System后边有一个任意字符，这是为了处理空格和句号的，后边*前边有个空格，这里看不出来，实际是输入了一个空格，这个代表，之后出现0个或多个空格，而其中用反斜杠和小括号括起来，代表后边\1指的就是这个匹配。如果这里有不明白的，可以翻看前边关于和\1的介绍。

[h,H,g,G,x模式空间与备份空间命令]

这几个命令就是在两个空间中互相操作，比较好理解，这里不再举例。

[b,t]流程跳转命令，根据前边的理论介绍也比较好理解，不再举例。

posted @ 2013-10-31 21:30 pangbangb 阅读(320) 评论(0) 编辑收藏举报

刷新页面返回顶部

pangbangb

程序员乐园

掌握Sed命令

公告