Linux--uniq 命令（检查和处理重复行的数据）

文本中的重复行，基本上不是我们所要的，所以就要去除掉。linux下有其他命令可以去除重复行，但是我觉得uniq还是比较方便的一个。

使用uniq的时候要注意以下二点
1、对文本操作时，它一般会和sort命令进行组合使用，因为uniq 不会检查重复的行，除非它们是相邻的行。如果您想先对输入排序，使用sort -u。
2、对文本操作时，若域中为先空字符(通常包括空格以及制表符)，然后非空字符，域中字符前的空字符将被跳过。

语法
uniq [-cdu][-f<栏位>][-s<字符位置>][-w<字符位置>][--help][--version][输入文件][输出文件]
参数：
-c, --count 在每行前显示该行重复出现的次数。
-d, --repeated 仅显示重复出现的行列。
-D, --all-repeated 只输出重复的行，不过有几行输出几行
-f, --skip-fields=N 忽略比较指定的栏位。 -f 忽略的段数，-f 1 忽略第一段
-i, --ignore-case 不区分大小写
-s, --skip-chars=N 忽略比较指定的字符，忽略后面多少个字符
-u, --unique 仅显示出一次的行列。（去除重复的后，全部显示出来，根mysql的distinct功能上有点像）
-w, --check-chars=N 指定要比较的字符。对每行第N 个字符以后的内容不作对照
--help 显示帮助。
--version 显示版本信息。
[输入文件] 指定已排序好的文本文件。如果不指定此项，则从标准读取数据；
[输出文件] 指定输出的文件。如果不指定此选项，则将内容显示到标准输出设备（显示终端）。

实例

文件testfile中第 2、3、5、6、7、9行为重复的行，使用 uniq 命令删除重复的行，可使用以下命令：
uniq testfile

testfile中的原有内容为：
$ cat testfile #原有内容

test 30

test 30
Hello 95
Hello 95
Hello 95
Hello 95
Linux 85
Linux 85

使用uniq 命令删除重复的行后，有如下输出结果：
$ uniq testfile #删除重复行后的内容
test 30
Hello 95
Linux 85

检查文件并删除文件中重复出现的行，并在行首显示该行重复出现的次数。使用如下命令：
uniq -c testfile
结果输出如下：
$ uniq -c testfile #删除重复行后的内容
3 test 30 #前面的数字的意义为该行共出现了3次
4 Hello 95 #前面的数字的意义为该行共出现了4次
2 Linux 85 #前面的数字的意义为该行共出现了2次

当重复的行并不相邻时，uniq 命令是不起作用的，即若文件内容为以下时，uniq 命令不起作用：

$ cat testfile1 # 原有内容

test 30
Hello 95
Linux 85

这时我们就可以使用 sort：
$ sort testfile1 | uniq

Hello 95
Linux 85

test 30

统计各行在文件中出现的次数：
$ sort testfile1 | uniq -c

3 Hello 95
3 Linux 85
3 test 30

在文件中找出重复的行：
$ sort testfile1 | uniq -d

Hello 95
Linux 85

test 30

用uniq来处理文件重复数据--交集，差集
经常有这样的需求：两个文本文件要求取重复的行或只取不重复的，简单的情况下用sort和uniq来处理是非常方便的：
利用现存两个文件，生成一个新的文件。

1、取出两个文件的并集(重复的行只保留一份)
cat file1 file2 | sort | uniq

2、取出两个文件的交集(只留下同时存在于两个文件中的文件，重复行)
cat file1 file2 | sort | uniq -d

3、删除交集，留下其他的行（非重复行）
cat file1 file2 | sort | uniq -u

posted @ 2020-08-20 17:18 业余砖家阅读(6006) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

业余砖家

没有比人更高的山，没有比脚更长的路。

Linux--uniq 命令（检查和处理重复行的数据）

公告