sed,sort,uniq,join,cut,paste,split用法

sed,sort,uniq,join,cut,paste,split
==============================sed==========================
1、调用sed
调用s e d有三种方式：在命令行键入命令；将s e d命令插入脚本文件，然后调用s e d；将s e d
命令插入脚本文件，并使s e d脚本可执行。
使用s e d命令行格式为：
sed [选项] s e d命令输入文件。
记住在命令行使用s e d命令时，实际命令要加单引号。s e d也允许加双引号

使用s e d脚本文件，格式为：
sed [选项] -f sed脚本文件输入文件

要使用第一行具有s e d命令解释器的s e d脚本文件，其格式为
sed脚本文件 [选项] 输入文件

sed选项如下：
n 不打印；s e d不写编辑行到标准输出，缺省为打印所有行（编辑和未编辑）。p命令可以
用来打印编辑行。
c 下一命令是编辑命令。使用多项编辑时加入此选项。如果只用到一条s e d命令，
此选项无用，但指定它也没有关系。
f 如果正在调用s e d脚本文件，使用此选项。此选项通知s e d一个脚本文件支持所有的s e d
命令，例如：sed -f myscript.sed input_file，这里m y s c r i p t . s e d即为支持s e d命令的文件。
2、使用sed在文件中查询文本的方式
s e d浏览输入文件时，缺省从第一行开始，有两种方式定位文本：
1) 使用行号，可以是一个简单数字，或是一个行号范围。
2) 使用正则表达式
使用s e d在文件中定位文本的方式
x x为一行号，如1
x , y 表示行号范围从x到y，如2，5表示从第2行到第5行
/ p a t t e r n / 查询包含模式的行。例如/ d i s k /或/[a-z]/
/ p a t t e r n / p a t t e r n / 查询包含两个模式的行。例如/ d i s k / d i s k s /
p a t t e r n / , x 在给定行号上查询包含模式的行。如/ r i b b o n / , 3
x , / p a t t e r n / 通过行号和模式查询匹配行。3 . / v d u /
x , y ! 查询不包含指定行号x和y的行。1 , 2 !
3、基本sed编辑命令
sed编辑命令
p 打印匹配行
= 显示文件行号
a \ 在定位行号后附加新文本信息
i \ 在定位行号后插入新文本信息
d 删除定位行
c \ 用新文本替换定位文本
s 使用替换模式替换相应模式
r 从另一个文件中读文本
w 写文本到一个文件
q 第一个模式匹配完成后推出或立即推出
l 显示与八进制A S C I I代码等价的控制字符
{ } 在定位行执行的命令组
n 从另一个文件中读文本下一行，并附加在下一行
g 将模式2粘贴到/pattern n/
y 传送字符
n 延续到下一输入行；允许跨行的
4、sed和正则表达式
sed识别任何基本正则表达式和模式及其行匹配规则
5、基本sed编程举例
使用p（rint）显示行：
p r i n t命令格式为[ a d d r e s s [，a d d r e s s ] P。显示文本行必须提供s e d命令行号。
sed -n '2p' quote.txt
显示从2到4行
sed -n '2,4p' url_access_detail.txt

打印模式：
sed -n '/1028f/p' url_access_detail.txt
sed -n '/\/\?1028f/p' url_access_detail.txt

使用模式和行号进行查询：
只在第4行查询
sed -n '4,/\/\?1028f/'p url_access_detail.txt

显示整个文件：
只需将行范围设为第一行到最后一行1 , $。$意为最后一行：
sed -n '1,$p' quote.txt

任意字符:
匹配任意字母，后跟任意字母的0次或多次重复，并以i n g结尾，模式为/ . * i n g /。可以使用
这个模式查询以i n g结尾的任意单词
sed -n '/.*ing/'p quote.txt

打印行号:
要打印行号，使用等号=。打印模式匹配的行号，使用格式/pattern/=。
sed -e '/music/=' quote.txt
(不过这些好像在linux里面不支持)

附加文本：
sed -n '/1028f/'p url_access_detail.txt |sed '/h/ a\then haha'
在前面添加，用i\
替换，用c\
删除，用d\
6、替换文本
替换命令用替换模式替换指定模式，格式为：
[ a d d r e s s [，address]] s/ pattern-to-find /replacement-pattern/[g p w n]
s选项通知s e d这是一个替换操作，并查询p a t t e r n - t o - f i n d，成功后用r e p l a c e m e n t - p a t t e r n替
换它。
g 缺省情况下只替换第一次出现模式，使用g选项替换全局所有出现模式。
p 缺省s e d将所有被替换行写入标准输出，加p选项将使- n选项无效。- n选项不打印输出
结果。
w 文件名使用此选项将输出定向到一个文件。
sed 's/haha/hehe/g w a.out' quote.txt

使用替换修改字符串:
如果要附加或修改一个字符串，可以使用（ &）命令，&命令保存发现模式以便重新调用
它，然后把它放在替换字符串里面。这里给出一个修改的设计思路。先给出一个被替换模式，
然后是一个准备附加在第一个模式后的另一个模式，并且后面带有&，这样修改模式将放在
匹配模式之前。例如， s e d语句s/nurse/"Hello"&/p 的结果如下
sed 's/nurse/"Hello" &/p' quote.txt
比如原来的句子为： The nurse come from china.
替换后的句子为： The "Hello" nurse come from china.
7、从文件中读文本
处理文件时， s e d允许从另一个文件中读文本，并将其文本附加在当前文件。此命令放在
模式匹配行后，格式为：address r filename
sed '/companty/r append.txt' quote.txt
8、显示文件中的控制字符
s e d格式为：
[ a d d r e s s，[ a d d r e s s ] ] l
sed '1,$1' quote.txt
(linux 不支持)
9、处理报文输出
比如有如下输出：
Database Size DateCreated
----------------------------
newlog 2289 12/11/2005
mysql 1909 09/12/2005

(2 row affected)

为了使用上述输出信息做进一步自动处理，需要知道所存数据库名称，为此需执行以下操作：
1) 使用s / - * / / g删除横线- - - - - -。
2) 使用/ ^ $ / d删除空行。
3) 使用$ d删除最后一行
4) 使用1 d删除第一行。
5) 使用awk {print $1}打印第一列。
命令如下，这里使用了c a t，并管道传送结果到s e d命令
最后的命令如下：
cat sql.txt| sed 's/-*//g'|sed '/^$//g'|sed '$d'|sed '1d'|awk '{print $1}'

去除行首数字：
sed 's/^[0-9]//g' data.txt

10、一些常用的处理
‘s / \ . $ / / g’ 删除以句点结尾行
‘-e /abcd/d’ 删除包含a b c d的行
‘s / [ ] [ ] [ ] * / [ ] / g’ 删除一个以上空格，用一个空格代替
‘s / ^ [ ] [ ] * / / g’ 删除行首空格
‘s / \ . [ ] [ ] * / [ ] / g’ 删除句点后跟两个或更多空格，代之以一个空格
‘/ ^ $ / d’ 删除空行
‘s / ^ . / / g’ 删除第一个字符
‘s /CO L \ ( . . . \ ) / / g’ 删除紧跟C O L的后三个字母
‘s / ^ \ / / / g’ 从路径中删除第一个\
‘s / [ ] / [ ] / / g’ 删除所有空格并用t a b键替代
‘S / ^ [ ] / / g’ 删除行首所有t a b键
‘s / [ ] * / / g’ 删除所有t a b键
================================合并与分割==========================
sort uniq join cut paste split
================sort用法=====================
sort命令将许多不同的域按不同的列顺序分类。
1、sort选项
sort命令的一般格式为：
sort -cmu -o output_file [other options] +pos1 +pos2 input_files
下面简要介绍一下s o r t的参数：
-c 测试文件是否已经分类。
-m 合并两个分类文件。
-u 删除所有复制行。
-o 存储s o r t结果的输出文件名。
其他选项有：
-b 使用域进行分类时，忽略第一个空格。
-n 指定分类是域上的数字分类。
-t 域分隔符；用非空格或t a b键分隔域。
-r 对分类次序或比较求逆。
+n n为域号。使用此域号开始分类。
n n为域号。在分类比较时忽略此域，一般与+ n一起使用。
post1 传递到m，n。m为域号，n为开始分类字符数；例如4，6意即以第5域分类，从第7个字符开始。
2、sort启动方式
缺省情况下， s o r t认为一个空格或一系列空格为分隔符。要加入其他方式分隔，使用- t选项。
sort执行时，先查看是否为域分隔设置了- t选项，如果设置了，则使用它来将记录分隔成域0、域1等等；
如果未设置，用空格代替。缺省时s o r t将整个行排序，指定域号的情况例外。
关于s o r t的一个重要事实是它参照第一个域作为域0，域1是第二个域，等等。
3、文件是否已分类
sort -c data.txt
4、sort分类求逆
如果要逆向s o r t结果，使用-r选项。
sort -t: -r video.txt
5、按指定域分类
有时需要只按第2域（分类键1）分类。
sort -t: +1 video.txt
6、数值域分类
用-n选项。必须用，不然得不到想要的结果。
sort -t: +3n video.txt
7、唯一性分类
使用- u选项进行唯一性（不重复）分类以去除重复行。
8、使用k的其他sort方法
sort还有另外一些方法指定分类键。可以指定k选项。
sort -t: -k4 video.txt

使用k做分类键排序：
可以指定分类键次序。先以第4域，再以第1域分类，命令为-k4 -k1
sort -t: -k4 -k1 video.txt
9、指定sort序列
可以指定分类键顺序，也可以使用- n选项指定不使用哪个分类键进行查询。看下面的sort命令：
sort +0 -2 +3
该命令意即开始以域0分类，忽略域2，然后再使用域3分类。
10、pos用法
指定开始分类的域位置的另一种方法是使用如下格式：
sort +filed.characterin
意即从filed开始分类，但是要在此域的第characterin个字符开始。
11、使用head和tail将输出分类
可以使用h e a d或t a i l查阅任何大的文本文件
head -200 filename
12、awk使用sort输出结果
13、将两个分类文件合并
将文件合并前，它们必须已被分类.
使用-m +0。将这个文件并入已存在的分类文件v i d e o . s o r t，要以名称域进行分类，实际上没有必要加入+ o，但为了保险起见，还是加上的好。
sort -t: -m +0 video2.txt video.sort

===================uniq用法====================
uniq用来从一个文本文件中去除或禁止重复行。一般u n i q假定文件已分类，并且结果正确。
sort的唯一性选项去除所有重复行，而uniq命令并不这样做。重复行是什么？在uniq里意即持续不断重复出现的行，中间不夹杂任何其他文本.
命令一般格式：
uniq -u d c -f inputfile outputfile
其选项含义：
-u 只显示不重复行。
-d 只显示有重复数据行，每种重复行只显示其中一行
-c 打印每一重复行出现次数。
-f n为数字，前n个域被忽略。
一些系统不识别- f选项，这时替代使用- n。
对特定域进行测试:
使用- n只测试一行一部分的唯一性。例如- 5意即测试第5域后各域唯一性。域从1开始记数。
如果忽略第1域，只测试第2域唯一性，使用- n 2，下述文件包含一组数据，其中第2域代表组代码。
uniq -f2 parts.txt或
uniq -n2 parts.txt

第一：两个文件的交集，并集
前提条件：每个文件中不得有重复行
1. 取出两个文件的并集(重复的行只保留一份)
2. 取出两个文件的交集(只留下同时存在于两个文件中的文件)
3. 删除交集，留下其他的行
1. cat file1 file2 | sort | uniq > file3
2. cat file1 file2 | sort | uniq -d > file3
3. cat file1 file2 | sort | uniq -u > file3

第二：两个文件合并
一个文件在上，一个文件在下
cat file1 file2 > file3
一个文件在左，一个文件在右
paste file1 file2 > file3

第三：一个文件去掉重复的行：
sort file |uniq
注意：重复的多行记为一行，也就是说这些重复的行还在，只是全部省略为一行！
sort file |uniq -u
上面的命令可以把重复的行全部去掉，也就是文件中的非重复行！
具体细节可以查看，cat，sort，uniq等命令的详细介绍

重复行通常不会造成问题，但是有时候它们的确会引起问题。此时，不必花上一个下午的时间来为它们编制过滤器，uniq 命令便是唾手可得的好工具。了解一下它是如何节省您的时间和精力的。

进行排序之后，您会发现有些行是重复的。有时候该重复信息是不需要的，可以将它除去以节省磁盘空间。不必对文本行进行排序，但是您应当记住 uniq 在读取行时会对它们进行比较并将只除去两个或更多的连续行。下面的示例说明了它实际上是如何工作的：
清单 1. 用 uniq 除去重复行


       $ cat happybirthday.txt
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday Dear Tux!
Happy Birthday to You!
       $ sort happybirthday.txt
Happy Birthday Dear Tux!
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday to You!
       $ sort happybirthday.txt | uniq
Happy Birthday Dear Tux!
Happy Birthday to You!


警告：请不要使用 uniq 或任何其它工具从包含财务或其它重要数据的文件中除去重复行。在这种情况下，重复行几乎总是表示同一金额的另一个交易，将它除去会给会计部造成许多困难。千万别这么干！

有关 uniq 的更多信息

本系列文章介绍了文本实用程序，它对在手册页和信息页找到的信息作了补充。如果您打开新的终端窗口并输入 man uniq 或 info uniq ，或者打开新的浏览器窗口并查看位于 gnu.org 的 uniq 手册页，那么就可以了解更多的相关信息。

如果您希望您的工作轻松点，比如只显示唯一的或重复的行，那么该怎么办呢？
您可以用 -u （唯一）和 -d （重复）选项来做到这一点，例如：
清单 2. 使用 -u 和 -d 选项


       $ sort happybirthday.txt | uniq -u
Happy Birthday Dear Tux!
       $ sort happybirthday.txt | uniq -d
Happy Birthday to You!


您还可以用 -c 选项从 uniq 中获取一些统计信息：
清单 3. 使用 -c 选项


       $ sort happybirthday.txt | uniq -uc
      1 Happy Birthday Dear Tux!
       $ sort happybirthday.txt | uniq -dc
      3 Happy Birthday to You!


就算 uniq 对完整的行进行比较，它仍然会很有用，但是那并非该命令的全部功能。特别方便的是：使用 -f 选项，后面跟着要跳过的字段数，它能够跳过给定数目的字段。当您查看系统日志时这非常有用。通常，某些项要被复制许多次，这使得查看日志很难。使用简单的 uniq 无法完成任务，因为每一项都以不同的时间戳记开头。但是如果您告诉它跳过所有的时间字段，您的日志一下子就会变得更加便于管理。试一试 uniq -f 3 /var/log/messages ，亲眼看看。

还有另一个选项 -s ，它的功能就像 -f 一样，但是跳过给定数目的字符。您可以一起使用 -f 和 -s 。 uniq 先跳过字段，再跳过字符。如果您只想使用一些预先设置的字符进行比较，那么该怎么办呢？试试看 -w 选项。

补充：

两文件按列合并：

join -1 1 -2 1 a_sort.txt b_sort.txt

sort命令分析日志
很久没有更新blog了，上来冒个泡。

之前，常用cut,sort,uniq命令的组合分析程序的log，或者查看数据以便统计。例如：cut -d "|" -f 4 | sort | uniq -n -r。

今天遇到一个问题，需要查看多个用户的操作记录。数据第一列可顺利的按照时间排序，然而用户名在中间，既然是log，那源数据便可能是多个用户的交叉记录了。比如：

很显然，我们希望的顺序是:

我们既想按照中间的数据的排序又要保持数据的完整性！也许可以用其他的命令实现这个，但我更倾向于使用常用的命令搞定复杂的事情。

其实sort命令是可以实现这个的。sort的-t选项可以实现cut的-d功能，再利用+m -n参数可以实现cut的-f的功能，只是，sort的这个+m -n是从0开始计数的。+m -n是指从第m个字段开始，到第n个字段排序，其中包含第m个但不包含第n个。比如:sort -t "|" +1 -2 filename 就可以得到我们想要的结果了。-k 是单列排序，从1开始计算。

sort的功能是排序，应用起来会有很多种排序的方式，可以用指定的参数来控制：

    - d 按字典顺序排序，比较时仅字母、数字、空格和制表符有意义。这个选项对 uniq -d 后的结果尤为有用。
    - f 将小写字母与大写字母同等对待。也就是忽略大小写。
    - I 忽略非打印字符。
    - M 作为月份比较：“JAN”<“FEB”
    - r 按逆序输出排序结果。这个可与 -d 同时使用，实现数字从大到小的排列

-g是作为数字进行排列

还有一个很实用的功能，如果你想把一个过滤后的文件内容重新写入到原文件，那么- o 参数可以达到这个要求，但是效率呢？嗯，是个问题，看取舍了！毕竟这种情况重定向是不行的。

- o 输出文件将排序输出写到输出文件中而不是标准输出，如果输出文件是输入文件之一，sort先将该文件的内容写入一个临时文件，然后再排序和写输出结果。

==================join用法(强大呀，像sql里面的join 呢)========================
join用来将来自两个分类文本文件的行连在一起。
下面讲述join工作方式。这里有两个文件f i l e 1和f i l e 2，当然已经分类。每个文件里都有一
些元素与另一个文件相关。由于这种关系， join将两个文件连在一起，这有点像修改一个主文
件，使之包含两个文件里的共同元素。
为有效使用join，需分别将输入文件分类：
join的格式：
join [option] file1,file2
an n 为一数字，用于连接时从文件n中显示不匹配行。例如， -a1显示第一个文件的不匹
配行，- a2为从第二个文件中显示不匹配行。
o n.m n为文件号，m为域号。1.3表示只显示文件1第三域，每个n，m必须用逗号分隔，
如1.3,2.1。
j n m n为文件号，m为域号。使用其他域做连接域
t 域分隔符。用来设置非空格或t a b键的域分隔符。例如，指定冒号做域分隔符- t：

连接域为域0,缺省join删除或去除连接键的第二次重复出现:
join names.txt town.txt
1、不匹配连接,下面的例子显示匹配及不匹配域
join -a1 -a2 names.txt town.txt
只显示第一个文件中不匹配行：
join -a1 names.txt town.txt
2、选择性连接
使用- o选项选择连接域。例如要创建一个文件仅包含人名及城镇， j o i n执行时需要指定显示域。方式如下：
使用1 . 1显示第一个文件第一个域，2 . 2显示第二个文件第二个域，其间用逗号分隔。命令为：
join -o 1.1,2.2 names.txt town.txt
使用-jn m进行其他域连接，例如用文件1域3和文件2域2做连接键，命令为:
join -j1 3 -j2 2 names.txt town.txt

===========================cut用法=========================================
cut用来从标准输入或文本文件中剪切列或域。剪切文本可以将之粘贴到一个文本文件。
cut一般格式为：
cut [options] file1 file2
下面介绍其可用选项：
-c list 指定剪切字符数。
-f field 指定剪切域数。
-d 指定与空格和t a b键不同的域分隔符。
-c 用来指定剪切范围，如下所示：
-c 1，5-7 剪切第1个字符，然后是第5到第7个字符。
-c1-50 剪切前5 0个字符。
-f 格式与- c相同。
-f 1，5 剪切第1域，第5域。
- f 1，10-12 剪切第1域，第1 0域到第1 2域。

剪切指定域:
cut命令中剪切各域需用逗号分隔，如剪切域1和3，可以使用：
cut -d: -f1,3 pers

=========================paste用法==========================================
cut用来从文本文件或标准输出中抽取数据列或者域，然后再用paste可以将这些数据粘贴
起来形成相关文件。粘贴两个不同来源的数据时，首先需将其分类，并确保两个文件行数相同。
paste将按行将不同文件行信息放在一行。缺省情况下，paste连接时，用空格或t a b键分隔
新行中不同文本，除非指定- d选项，它将成为域分隔符。
paste格式为；
paste -d -s -file1 file2
选项含义如下：
-d 指定不同于空格或t a b键的域分隔符。例如用@分隔域，使用- d @。
-s 将每个文件合并成行而不是按行粘

paste命令管道输入:
paste命令还有一个很有用的选项（ -）。意即对每一个（ -），从标准输入中读一次数据。
使用空格作域分隔符，以一个4列格式显示目录列表。方法如下：
ls |paste -d":" - - - -
=========================split用法==========================================
split用来将大文件分割成小文件。

split -output_file-size input-filename output-filename
每个文件格式为x [ a a ]到x [ z z ]，x为文件名首字母， [ a a ]、[ z z ]为文件名剩余部分顺序字符组合.
split -5000 url_access_user.txt splitfile

posted @ 2011-04-29 14:02 ACE封印 Views(642) Comments(0) Edit 收藏举报

刷新页面返回顶部

ACE封印

sed,sort,uniq,join,cut,paste,split用法

公告