shell学习笔记之uniq、join、cut

uniq

uniq用来从一个文本文件中删除或者禁止重复行，一般uniq假定文件已经分类，并且结果正确。

sort中的唯一性选项去除所有重复行，而uniq命令并不是这样。在uniq中，重复行是不断重复出现的行，中间不夹杂任何文本内容，如：

1 May Day
2 May Day
3 May Day
4 Going DOwn
5 May Day
6 May Day.
7 May Day

uniq将前三行看作是重复行，第四行是不同文本，所以第五行的May Day将被保留。uniq命令的格式为：

$ uniq -u d c -f input_file out_file

各个选项的含义：

-u ：只显示不重复行

-d ：只显示有重复数据行，每种重复行只显示其中一行

-c ：打印每个重复行出现的次数

-f ： n为数字，前n个域被忽略，有些系统并不识别-f，这时替代使用-n。

使用-n只测试一行一部分的唯一性。注意：域从1开始计数。

1 AK123 33 46 6u OPP ty yu
2 DK122 5h 67 y8 OPP ty yu
3 EK999 56 56 78 IIY ty yu

从第五个域开始比较：

1 $ uniq -f4 -c parts.txt 
2       2 AK123 33 46 6u OPP ty yu
3       1 EK999 56 56 78 IIY ty yu

uniq在读取行时，会对它们进行比较并将只除去两个或更多的连续行。

join

join用来将两个分类文本文件的行连在一起。假设有两个文件file1和file2，当然已经分类，每个文件中都有一些元素与另一个文件相连，由于这种关系，join将两个文件合并在一起。

为了有效使用join，需分别将输入文件分类。

其命令格式为：

1 join [options] input-file1 input-file2

选项：

an ：表示连接时显示第n个文件不匹配行。
o n.m ： n表示文件号，m表示域号。

t ：分隔符

j n.m o.p 表示连接的字段参数。

缺省j o i n删除或去除连接键的第二次重复出现，这里即为名字域。

cut

cut用来从标准输入或者文本文件中剪切列或者域。剪切文本可以粘帖到一个文本文件中。

格式为：

1 cut [options] file1 file2

选项：

-c list 指定剪切字符数。
-f field 指定剪切域数。
-d 指定与空格和t a b键不同的域分隔符。
- c用来指定剪切范围，如下所示：
- c 1，5-7 剪切第1个字符，然后是第5到第7个字符。
-c1-50 剪切前5 0个字符。
-f 格式与- c相同，剪切域。
-f 1，5 剪切第1域，第5域。
- f 1，10-12 剪切第1域，第1 0域到第1 2域

paste

c u t用来从文本文件或标准输出中抽取数据列或者域，然后再用p a s t e可以将这些数据粘贴起来形成相关文件。粘贴两个不同来源的数据时，首先需将其分类，并确保两个文件行数相同。
p a s t e将按行将不同文件行信息放在一行。缺省情况下， p a s t e连接时，用空格或t a b键分隔新行中不同文本，除非指定- d选项，它将成为域分隔符。
p a s t e格式为；

1 paste -d -s -file1 file2

选项含义如下：
-d 指定不同于空格或t a b键的域分隔符。例如用@分隔域，使用- d @。
-s 将每个文件合并成行而不是按行粘贴。
- 使用标准输入。例如ls -l |paste ，意即只在一列上显示输出。

split

split将大文件分割成小文件。

命令格式：

1 split -output_file-size input-filename output-filename

posted @ 2012-03-02 13:56 leealways87 阅读(853) 评论(0) 编辑收藏举报

刷新页面返回顶部

shell学习笔记之uniq、join、cut

公告