常用文本处理命令
1.sort
1.1作用:
- sort 命令用于将文本文件内容加以排序。
- sort 可针对文本文件的内容,以行为单位来排序。
1.2格式:
sort -选项 参数
1.3常用选项:
- -b:忽略开头的空白字符
- -f:将小写字母看作大写字母
- -h:根据存储容量排序(KB、MB、GB)
- -n:按数字排序
- -o:把结果写入文件
- -r:以相反的顺序来排序
- -t:指定分隔符。默认为空格
- -V:按照数字版本排序
- -k:指定排序的关键字,与-t参数配合使用
1.4操作:
sort 文件名 //按照第一列数字进行排序
sort -n //按数字大小排序
sort -r //以相反顺序来排序
2.uniq
2.1作用:
- 以行为单位,进行行与行之间的字符串比较并进行去重
- 只能对有序的文本行进行有效去重,所以常与sort命令结合使用
2.2格式:
uniq -选项 参数
2.3常用选项:
- -c:统计重复出现的次数
- -d:所有邻近的重复行只被打印一次。重复次数要>=2次
- -D:所有邻近的重复行将全部打印
- -f:跳过对前n个列的比较
- -s:跳过对前n个字符的比较
- -w:只对每行前n个字符进行比较
2.4操作:
3.tr
3.1作用:
常用来对来自标准输入的字符进行替换、压缩和删除
3.2格式:
tr -选项 参数
3.3常用选项:
- -c∶保留字符集1的字符,其他的字符(也包括换行符\n)用字符集2替换
- -d∶ 删除所有属于字符集1的字符
- -s∶ 将重复出现的字符串压缩为一个字符串;用字符集2替换 字符集1
- -t∶ 字符集2 替换 字符集1,不加选项和结果
3.4操作:
4.cut
4.1作用:
显示行中的指定部分,删除文件中指定字段
①cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。
②如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。
4.2格式:
cut -选项 参数
4.3常用选项:
- -f∶ 通过指定哪一个字段进行提取。cut命令使用"TAB"作为默认的字段分隔符。
- -d∶ “TAB"是默认的分隔符,使用此选项可以更改为其他的分隔符。
- - -complement∶ 此选项用于排除所指定的字段。
- - -output-delimiter∶ 更改输出内容的分隔符。
- -b :以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志
4.4操作:
排除指定字段:
5.eval
5.1作用:
- 如果是普通的命令
直接执行命令 - 如果含有间接引用
(1)执行变量替换
(2)执行替换以后的命令
6.split
6.1作用:
linux下将一个大的文件拆分成若干小文件
6.2格式:
split -选项 参数 原始文件 拆分后文件名前缀
6.3常用选项:
- -l 以行数拆分
- -b 以大小拆分
6.4操作:
7.wc
7.1作用:
- wc命令用于计算字数。
- 利用wc指令我们可以计算文件的字节数、字数、或是行数,若不指定文件名称、或是所给予的文件名为"-",则wc指令会从标准输入设备读取数据。
7.2格式:
wc -选项 参数
7.3常用选项:
- -c:统计字节数:chars
- -l:统计行数
- -w:统计单词数
- -L:打印最长行的长度
7.4操作:
wc //统计行数,字数,字节数
8.总结
sort,uniq ,tr,cut,eval,wc等命令常配合管道符使用。