linux面试常问命令
1.查找文件
find / -name filename.txt
根据名称查找/目录下的filename.txt文件。
2.查看一个程序是否运行
ps –ef|grep tomcat
查看所有有关tomcat的进程
3.终止线程
kill -9 19979
终止线程号位19979的线程
4.查看文件,包含隐藏文件
ls -al
5.当前工作目录
pwd
6.复制文件包括其子文件到自定目录
cp -r sourceFolder targetFolder
7.创建目录
mkdir newfolder
8.删除目录(此目录是空目录)
rmdir deleteEmptyFolder
9.删除文件包括其子文件
rm -rf deleteFile
10.移动文件
mv /temp/movefile /targetFolder
扩展重命名 mv oldNameFile newNameFile
11.切换用户
su -username
12.修改文件权限
chmod 777 file.java //file.java的权限-rwxrwxrwx,r表示读、w表示写、x表示可执行
13.压缩文件
tar -czf test.tar.gz /test1 /test2
14.列出压缩文件列表
tar -tzf test.tar.gz
15.解压文件
tar -xvzf test.tar.gz
16.查看文件头10行
head -n 10 example.txt
17.查看文件尾10行
tail -n 10 example.txt
18.查看日志文件
tail -f exmaple.log //这个命令会自动显示新增内容,屏幕只显示10行内容的(可设置)。
19.启动Vi编辑器
vi
20.查看系统当前时间
date
命令会输出 周几 几月 几日 时间 和 时间显示格式 和年份
Sat Jan 20 04:39:49 CST 2018
date +"%Y-%m-%d"
显示如下:
[root@ming xxx]# date +"%Y-%m-%d" 2018-01-20
注:这个我们如果不确定 就help 即可;
21.解压zip 文件
unzip -oq
22.查看线程个数(方便查看程序是否有误)
ps -Lf 端口号|wc -l
23、查看进程(例:如何查看所有xx进程)
ps -ef | grep xxx
ps -aux | grep xxx(-aux显示所有状态)
24、杀掉进程
kill -9[PID] ---(PID用查看进程的方式查找)
25、启动/停止服务
cd到bin目录cd/ ./startup.sh --打开(先确保有足够的权限) ./shutdown.sh ---关闭
26、查看日志
1.cd到服务器的logs目录(里面有xx.out文件) 2.tail -f xx.out --此时屏幕上实时更新日志。ctr+c停止 3.查看最后100行日志 tail -100 xx.out 4.查看关键字附件的日志。如:cat filename | grep -C 5 '关键字'(关键字前后五行。B表示前,A表示后,C表示前后) ----使用不多 5.还有vi查询啥的。用的也不多。
27、查看端口:(如查看某个端口是否被占用)
netstat -anp | grep 端口号(状态为LISTEN表示被占用)
28、查找文件
查找大小超过xx的文件: find . -type f -size +xxk -----(find . -type f -mtime -1 -size +100k -size-400k)--查区间大小的文件 通过文件名:find / -name xxxx ---整个硬盘查找
29、vim(vi)编辑器
有命令模式、输入模式、末行模式三种模式。 命令模式:查找内容(/abc、跳转到指定行(20gg)、跳转到尾行(G)、跳转到首行(gg)、删除行(dd)、插入行(o)、复制粘贴(yy,p) 输入模式:编辑文件内容 末行模式:保存退出(wq)、强制退出(q!)、显示文件行号(set number) 在命令模式下,输入a或i即可切换到输入模式,输入冒号(:)即可切换到末行模式;在输入模式和末行模式下,按esc键切换到命令模式
30. awk命令
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。awk是一个报告生成器,它拥有强大的文本格式化的能力。awk其实是一门编程语言,它支持条件判断、数组、循环等功能。所以,我们也可以把awk理解成一个脚本语言解释器。grep 、sed、awk被称为linux中的"三剑客"。
grep 更适合单纯的查找或匹配文本;
sed 更适合编辑匹配到的文本;
awk 更适合格式化文本,对文本进行较复杂格式处理;
从字面上理解 ,action指的就是动作,awk擅长文本格式化,并且将格式化以后的文本输出,所以awk最常用的动作就是print和printf,因为awk要把格式化完成后的文本输出啊,所以,这两个动作最常用。
我们先从最简单用法开始了解awk,我们先不使用[options] ,也不指定pattern,直接使用最简单的action,从而开始认识awk,示例如下
上图中,我们只是使用awk执行了一个打印的动作,将testd文件中的内容打印了出来。
好了,现在,我们来操作一下另一个类似的场景。
上图中的示例没有使用到options和pattern,上图中的awk '{print $5}',表示输出df的信息的第5列,$5表示将当前行按照分隔符分割后的第5列,不指定分隔符时,默认使用空格作为分隔符,细心的你一定发现了,上述信息用的空格不止有一个,而是有连续多个空格,awk自动将连续的空格理解为一个分割符了,是不是比cut命令要简单很多,这样比较简单的例子,有利于我们开始了解awk。
awk是逐行处理的,逐行处理的意思就是说,当awk处理一个文本时,会一行一行进行处理,处理完当前行,再处理下一行,awk默认以"换行符"为标记,识别每一行,也就是说,awk跟我们人类一样,每次遇到"回车换行",就认为是当前行的结束,新的一行的开始,awk会按照用户指定的分割符去分割当前行,如果没有指定分割符,默认使用空格作为分隔符。
$0 表示显示整行 ,$NF表示当前行分割后的最后一列($0和$NF均为内置变量)
注意,$NF 和 NF 要表达的意思是不一样的,对于awk来说,$NF表示最后一个字段,NF表示当前行被分隔符切开以后,一共有几个字段。
也就是说,假如一行文本被空格分成了7段,那么NF的值就是7,$NF的值就是$7, 而$7表示当前行的第7个字段,也就是最后一列,那么每行的倒数第二列可以写为$(NF-1)。
我们也可以一次输出多列,使用逗号隔开要输出的多个列,如下,一次性输出第一列和第二列
同理,也可以一次性输出多个指定的列,如下图
我们发现,第一行并没有第5列,所以并没有输出任何文本,而第二行有第五列,所以输出了。
除了输出文本中的列,我们还能够添加自己的字段,将自己的字段与文件中的列结合起来,如下做法,都是可以的。
从上述实验中可以看出,awk可以灵活的将我们指定的字符与每一列进行拼接,或者把指定的字符当做一个新列插入到原来的列中,也就是awk格式化文本能力的体现。
但是要注意,$1这种内置变量的外侧不能加入双引号,否则$1会被当做文本输出,示例如下
我们也可以输出整行,比如,如下两种写法都表示输出整行。
我们说过,awk的语法如下:
awk [options] 'Pattern{Action}' file
而且我们说过awk是逐行处理的, 刚才已经说过了最常用的Action:print
现在,我们来认识下一Pattern,也就是我们所说的模式
不过,我们准备先把awk中最特殊的模式展示给大家,以后再介绍普通的模式,因为普通模式需要的篇幅比较长,所以我们先来总结特殊模式。
AWK 包含两种特殊的模式:BEGIN 和 END。
BEGIN 模式指定了处理文本之前需要执行的操作:
END 模式指定了处理完所有行之后所需要执行的操作:
什么意思呢?光说不练不容易理解,我们来看一些小例子,先从BEGIN模式开始,示例如下
上述写法表示,在开始处理test文件中的文本之前,先执行打印动作,输出的内容为"aaa","bbb".
也就是说,上述示例中,虽然指定了test文件作为输入源,但是在开始处理test文本之前,需要先执行BEGIN模式指定的"打印"操作
既然还没有开始逐行处理test文件中的文本,那么是不是根本就不需要指定test文件呢,我们来试试。
经过实验发现,还真是,我们并没有给定任何输入来源,awk就直接输出信息了,因为,BEGIN模式表示,在处理指定的文本之前,需要先执行BEGIN模式中指定的动作,而上述示例没有给定任何输入源,但是awk还是会先执行BEGIN模式指定的"打印"动作,打印完成后,发现并没有文本可以处理,于是就只完成了"打印 aaa bbb"的操作。
这个时候,如果我们想要awk先执行BEGIN模式指定的动作,再根据执我们自定义的动作去操作文本,该怎么办呢?示例如下
上图中,蓝色标注的部分表示BEGIN模式指定的动作,这部分动作需要在处理指定的文本之前执行,所以,上图中先打印出了"aaa bbb",当BEGIN模式对应的动作完成后,在使用后面的动作处理对应的文本,即打印test文件中的第一列与第二列,这样解释应该比较清楚了吧。
看完上述示例,似乎更加容易理解BEGIN模式是什么意思了,BEGIN模式的作用就是,在开始逐行处理文本之前,先执行BEGIN模式所指定的动作。以此类推,END模式的作用就一目了然了,举例如下。
聪明如你一定明白了,END模式就是在处理完所有的指定的文本之后,需要指定的动作。那么,我们可以结合BEGIN模式和END模式一起使用。示例如下
上述示例中返回的结果有没有很像一张"报表",有"表头" 、"表内容"、 "表尾"。
32.grep命令
先说说grep命令能做什么?
我们可以使用grep命令在文本中查找指定的字符串,就像你在windows中打开txt文件,使用快捷键 "Ctrl+F" 在文本中查找某个字符串一样,说白了,可以把grep理解成字符查找工具。
grep是Linux中最常用的"文本处理工具"之一,grep与sed、awk合称为Linux中的三剑客。
grep的全称为: Global search Regular Expression and Print out the line
全称中的"Global search"为全局搜索之意。
全称中的"Regular Expression"表示正则表达式。
所以,从grep的全称中可以了解到,grep是一个可以利用"正则表达式"进行"全局搜索"的工具,grep会在文本文件中按照指定的正则进行全局搜索,并将搜索出的行打印出来。
当然,不使用正则表达式时也可以使用grep,但是当grep与正则表达式结合在一起时,威力更强大。
我们先来看一个最简单的使用示例,从最简单的示例开始认识grep。
为了实验方便,我们先准备一个测试文件,文件名为testgrep,文件内容如下。
假设,现在我们想要从testgrep文本文件中搜索包含"test"字符串的行,则可以使用如下命令
上图中的命令表示使用grep命令,在testgrep文件中搜索包含"test"字符串的行,并将包含test字符串的行打印出来。
于是,testgrep文件中的第一行被打印了出来,默认情况下,grep是区分大小写的,所以,文件中包含大写"TEST"的行没有被打印出来。
如果我们想要在搜索字符串的时候,不区分大小写,应该怎样做呢?grep很贴心,为我们准备了一个选项,使用"-i"选项,即可在搜索时不区分大小写,示例如下:
如上图所示,在不区分大小写的情况下,由于testgrep文本中的第一行与第五行中都包含"test",所以,这两行都被打印了出来。
由于testgrep文本中的内容不较少、行比较少,所以,我们能数过来,是第一行与第五行包含"test"字符,如果文本中有1000行,我们还想要知道哪行文本包含"test"字符串,则可以使用"-n"选项,表示显示打印出的行在文本中的行号,示例如下。
如上图所示,grep不仅将符合条件的行输出了,同时还显示了行号,证明testgrep文本中的第1行与第5行,在不区分大小写的情况下,都包含字符串"test"。
在centos6中,我们使用grep在文本中搜索出的行虽然会被打印了出来,但是在打印这些行时,被匹配到的关键字没有高亮显示,如果我们想要高亮显示行中的关键字,该怎么办呢?我们可以使用"--color"选项,高亮显示行中的关键字,示例如下
注:"--color选项"是长选项
使用"--color"与使用"--color=auto"的效果相同,都表示高亮显示关键字,我比较懒,习惯使用"--color"。
在centos7中,系统默认为grep命令配置了别名,所以在centos7中使用grep命令时,不用显式的指定"--color"选项,默认就会高亮显示被匹配到的关键字,在centos7中使用alias命令,即可查看到grep命令的别名,如下
可以看到,centos7中为grep命令配置的别名中,默认包含了--color选项,所以,不用显示指定,也可高亮显示。
所以,我们也可以在centos6中借鉴这种方法。
上图中,testgrep文本中一共有两行包含"test"字符串,如果我们只想知道有多少行包含指定的字符串,而不在乎哪些行包含这些字符串,我们可以使用如下命令,获取到符合条件的总行数。
没错,使用"-c"选项即可只统计符合条件的总行数,而不会打印出行。
之前的示例中,包含关键词的行都会被打印出来,整行都会被打印出来,如果我们只想看被匹配到的关键字,不想整行都被打印出来,可以吗?必须的,使用"-o"选项即可只打印出匹配到的关机字,而不打印出整行,示例如下。
如上图所示,使用"-o"选项,可以只显示被匹配到的关键字,而不是讲整行的内容都输出。
但是需要注意,"-o"选项会把每个匹配到的关键字都单独显示在一行中进行输出,什么意思呢?看如下示例即可明白。
如上图所示,当没有使用"-o"选项时,包含"123"字符串的行都会被打印出来,当同一行中包含多个"123"时,所在行会被打印出来,对应的关键字也会高亮显示,当使用了"-o"选项时,每个被匹配到的关键字都会被单独打印在一行中,如上图所示,第三个"123"与第四个"123"都属于第10行的文本,但是它们仍然各自独占一行的输出了。
其实,我们在使用grep命令搜索文本时,往往有这种需求:在找到对应的关键字时,同时需要显示关键字附近的信息,什么意思呢?
我们来看一个场景,就能明白,我们新建了一个测试文件:testgrep1,测试文件内容如下
假设,我们想从testgrep1文件中找出"年龄为18"的人,我们该怎么找呢?你可能会尝试使用如下命令。
如上图所示,我们是匹配到了"年龄:18"的行,但是我们并不能从结果中得知年龄为18的人的姓名,因为姓名与年龄并不在一行中,那么我们该怎么办呢?
我们可以使用"-B"选项,显示符合条件的行之前的行,"B"有before之意,示例如下
如上图所示,包含字符串"年龄:18"的行被高亮输出了,同时,符合条件的行"之前的一行"也被打印了出来,这时,我们就能从结果中得知,朱双印今年18岁,王尼美今年18岁。
没错,上例中的"-B1"选项表示显示符合条件的行的同时还显示之前的1行,举一反三,"-B5"代表同时显示之前的5行,"-B3"代表同时显示之前的3行,"-B"选项的后面必须有数字,否则会报错。
与"-B"选项对应的选项是"-A"选项,"-B"有Before之意,"-A"有After之意,聪明如你,一定已经猜到了"-A"的含义,没错,"-A"代表显示符合条件的行的同时,还要显示之后的行,"-A3"表示同时显示符合条件的行之后的3行,我就不再赘述了。
说了"-A",说了"-B",现在说说"-C","-C"选项可以理解为"-A与-B"的结合,"-C"选项表示在显示符合条件的行的同时,也会显示其前后的行,如"-C1","-C1"表示打印符合条件的行的同时,也打印出之前的一行与之后的一行,"-C"有Context之意(上下文之意),示例如下。
这样我们就能看到"年龄是18岁"的人的所有信息了。
有的时候,我们往往需要进行所谓的"精确匹配",但是使用之前的方法似乎无法满足我们,示例如下。
上图中,当我们在文本中搜索"zsy"字符串的时候,"zsy"、"zsythink"、"123zsy123"所在的行都被匹配到了,因为"zsythink"中也包含了"zsy",所以也被匹配到了,但是当我们想要"精确匹配"zsy字符串的时候,按照上例中的方法就无法做到了,所谓的精确匹配,就是"zsy"作为一个独立的单词存在,而不是包含于某个字符串中,那么,如果有这种需求,我们怎么办呢?使用"-w"选项可以实现我们的需求,示例如下。
如上图所示,只有"zsy"作为一个独立的单词存在的时候,才会被匹配到,"zsy"包含于某个字符串的时候,则不会被匹配到,这就是所谓的精确匹配,"-w"有word之意,表示搜索的字符串作为一个独立的单词时才会被匹配到。
有的时候,我们需要反向查找,比如,查找"不包含某个字符串"的行,这个时候,我们需要用到"-v"选项,示例如下。
上例表示查找出文本中不包含"zsy"字符串的行。
某些场景下,我们可能想要同时从多个目标中匹配,什么意思呢?看了示例就秒懂,示例如下。
上例中,我们同时在文本中搜索了"abc"字符串与"test"字符串,包含这两个字符串中任意一个的行都会被打印出来,没错,就像上图中的示例一样,使用"-e"选项可以同时匹配多个目标,多个目标之间存在"或"关系,即匹配其中的任意一个都算作匹配成功。
在写脚本时,你可能只是想要利用grep判断文本中是否存在某个字符串,你只关心有没有匹配到,而不关心匹配到的内容,你只关心有,或者没有,这时,我们可以使用grep的静默模式,示例如下。
当使用"-q"选项时,表示grep使用静默模式,静默模式下grep不会输入任何信息,无论是否匹配到指定的字符串,都不会输出任何信息,所以,我们需要配合"echo $?"命令,查看命令的执行状态,如果返回值为0,证明上一条grep命令匹配到了指定的字符串,如果返回值为1,则证明上一条grep命令没有匹配到指定的字符串,就像上图示例中显示的那样,静默模式下,grep没有输出任何信息,当我们在testgrep文本中查找"test"字符串时,可以匹配到结果,当在文本中查找"ttttttttttttt"字符串的时候,没有匹配到结果,所以,我们只关心有没有匹配到指定字符时,可以使用"-q"选项,但是需要配合"echo $?"命令查看执行状态。
文章开头说了,grep可以利用正则表达式进行搜索,但是之前的举例中,grep都没有使用正则表达式,只是纯粹的去查找一些字符串,这次,我们使用grep命令,配合正则表达式,来查找我们想要的目标。
比如,我们想要查找某个文本中的合法邮箱,示例如下
眼尖的你肯定发现了,上图中的正则表达式为扩展正则表达式,而不是基础正则表达式,所以,在上述命令中,我使用了"-E"选项。
在使用"-E"选项时,grep才支持"扩展正则表达式",不使用"-E"选项时,grep默认只支持"基本正则表达式"。
不同的开发语言中,正则表达式的规则可能略有不同,我们在使用grep时,可以使用"-P"选项,指明使用perl兼容的正则表达式。
示例如下:
好了,grep的常用选项我们已经总结完毕,剩下需要做的就是不断的练习了。
其实,除了grep命令,其实还有egrep命令,还有fgrep命令(fast grep),它们有各自的特点。
grep:支持基本正则表达式
egrep:支持扩展正则表达式,相当于grep -E
fgrep:不支持正则表达式,只能匹配写死的字符串,但是速度奇快,效率高,fastgrep
参考:https://zhuanlan.zhihu.com/p/73337659
https://www.cnblogs.com/cbslock/p/10136220.html
http://www.zsythink.net/archives/category/linuxbase/%e5%9f%ba%e7%a1%80%e5%91%bd%e4%bb%a4/page/2/
https://www.cnblogs.com/ustc-zcc/p/13686351.html
1.5 shell编程几个常用命令
grep命令详解:过滤来自一个文件或标准输入匹配模式内容。
除了 grep 外,还有 egrep。egrep 是 grep 的扩展,相当于 grep -E。
Usage: grep [OPTION]... PATTERN [FILE]...
grep常用选项详解
选项 |
描述 |
-E,--extended-regexp |
模式是扩展正则表达式(ERE) |
-i,--ignore-case |
忽略大小写 |
-n,--line-number |
打印行号 |
-o,--only-matching |
只打印匹配的内容 |
-c,--count |
只打印每个文件匹配的行数 |
-B,--before-context=NUM |
打印匹配的前几行 |
-A,--after-context=NUM |
打印匹配的后几行 |
-C,--context=NUM |
打印匹配的前后几行 |
--color[=WHEN], |
匹配的字体颜色 |
-v,--invert-match |
打印不匹配的行 |
[root@ken ~]# echo "this is ken THIS IS KEN" | grep -i 'ken' this is ken THIS IS KEN [root@ken ~]# echo "this is ken THIS IS KEN" | grep 'ken' this is ken THIS IS KEN 2. -n,打印行号 [root@ken ~]# grep -n 'root' /etc/passwd 1:root:x:0:0:root:/root:/bin/bash 10:operator:x:11:0:operator:/root:/sbin/nologin 3. -o,只打印匹配的内容 [root@ken ~]# echo "this is ken THIS IS KEN" | grep -o 'ken' ken [root@ken ~]# echo "this is ken THIS IS KEN" | grep 'ken' this is ken THIS IS KEN 4. -c,打印文件匹配的行数 [root@ken ~]# grep -c 'root' /etc/passwd 2 [root@ken ~]# grep 'root' /etc/passwd root:x:0:0:root:/root:/bin/bash operator:x:11:0:operator:/root:/sbin/nologin 5. -B,打印匹配的前几行 [root@ken ~]# grep -B 3 'root' /etc/passwd root:x:0:0:root:/root:/bin/bash -- shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown halt:x:7:0:halt:/sbin:/sbin/halt mail:x:8:12:mail:/var/spool/mail:/sbin/nologin operator:x:11:0:operator:/root:/sbin/nologin 6.-A,打印匹配的后几行 [root@ken ~]# grep -A 3 'root' /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm:/var/adm:/sbin/nologin -- operator:x:11:0:operator:/root:/sbin/nologin games:x:12:100:games:/usr/games:/sbin/nologin ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin nobody:x:99:99:Nobody:/:/sbin/nologin 7.-C,打印匹配的前后几行 [root@ken ~]# grep -C 3 'root' /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm:/var/adm:/sbin/nologin -- shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown halt:x:7:0:halt:/sbin:/sbin/halt mail:x:8:12:mail:/var/spool/mail:/sbin/nologin operator:x:11:0:operator:/root:/sbin/nologin games:x:12:100:games:/usr/games:/sbin/nologin ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin nobody:x:99:99:Nobody:/:/sbin/nologin 8. --color,在centos7中已经默认为 grep --color,在centos6中需要加上--color才会显示颜色 [root@ken ~]# alias grep alias grep='grep --color=auto' 9. -v, 打印不匹配的行 [root@ken ~]# echo -e "hi\nthis is ken\nncie to meet you\nbye " | grep -v 'ken' hi ncie to meet you bye
一、cut命令
语法
cut [-bn] [file]
cut [-c] [file]
cut [-df] [file]
使用说明:
cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。
如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。
常用参数:
-c :以字符为单位进行分割。
-d :自定义分隔符。
-f :与-d一起使用,指定显示哪个区域。
常用实例演示1: -c:以字符为单位进行分隔 [root@ken ~]# echo "this is ken" | cut -c 4 s [root@ken ~]# echo "this is ken" | cut -c 5 [root@ken ~]# echo "this is ken" | cut -c 2 h [root@ken ~]# echo "this is ken" | cut -c 1-5 this 常用实例演示2:-d,-f:自定义分隔符并进行指定显示 1.从标准输入读取 [root@ken ~]# echo 'this is ken' | cut -d' ' -f3 ken [root@ken ~]# echo "name:ken age:25 gender:male" | cut -d ' ' -f2 age:25 2.从文件中读取 [root@ken ~]# echo "this is ken">test [root@ken ~]# cut -d' ' -f3 test ken
二、sort命令
Linux sort命令用于将文本文件内容加以排序。
sort可针对文本文件的内容,以行为单位来排序。
语法:
sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件]
常用参数说明:
-k:根据切割后的那一段进行排序
-n 依照数值的大小排序(默认是根据字符进行排序)。
-r 以相反的顺序来排序。
-t<分隔字符> 指定排序时所用的栏位分隔字符。
-u:去除重复的行(只要那个指定的字段重复,就认定是重复的行)
sort命令支持很多参数,常用参数如下:
短参数 | 长参数 | 说明 |
---|---|---|
-n | – number-sort | 按字符串数值排序,与-g区别为不转为浮点数 |
-g | –general-number-sort | 按通用数值排序,支持科学计数法 |
-f | –ignore-case | 忽略大小写,默认大小写字母不同 |
-k | –key=POS1[,POS2] | 排序从POS1开始,若指定POS2,则POS2结束,否则以pos1排序 |
-t | –field-separator=SEP | 指定列的分割符 |
-r | –reverse | 降序排序,默认为升序 |
-h | –human-numeric-sort | 使用易读性数字(例如: 2K 1G) |
-u | –unique | 去除重复的行 |
-o | –output=FILE | 将输出写入文件 |
实例一:默认排序
在使用sort命令以默认的式对文件的行进行排序,使用的命令如下:
[root@ken ~]# cat test 6 this is ken 2 this is ken 5 this is ken 6 this is ken 1 this is ken 8 this is ken [root@ken ~]# sort test 1 this is ken 2 this is ken 5 this is ken 6 this is ken 6 this is ken 8 this is ken
sort 命令将以默认的方式将文本文件的第一列以ASCII 码的次序排列,并将结果输出到标准输出。
实例二:取出排名前三
[root@ken ~]# sort -r test | head -3
8 this is ken
6 this is ken
6 this is ken
实例三:对文件中的内容按照e分割第二部分进行排序
复制代码
[root@ken ~]# sort -t 'e' -k 2 test
6 this:is:ke1
5 this:is:ke2
6 this:is:ke3
2 this:is:ke4
1 this:is:ke6
8 this:is:ke7
[root@ken ~]# sort -t 'e' -k 2 -r test
8 this:is:ke7
1 this:is:ke6
2 this:is:ke4
6 this:is:ke3
5 this:is:ke2
6 this:is:ke1
实例四:去除重复的行
[root@ken ~]# sort test
1 this:is:ke6
2 this:is:ke4
2 this:is:ke4
2 this:is:ke4
2 this:is:ke4
5 this:is:ke2
6 this:is:ke1
6 this:is:ke3
8 this:is:ke7
[root@ken ~]# sort -u test
1 this:is:ke6
2 this:is:ke4
5 this:is:ke2
6 this:is:ke1
6 this:is:ke3
8 this:is:ke7
1 sort的工作原理
sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。
[rocrocket@rocrocket programming]$ cat seq.txt
banana
apple
pear
orange
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
2 sort的-u选项
它的作用很简单,就是在输出行中去除重复行。
[rocrocket@rocrocket programming]$ cat seq.txt
banana
apple
pear
orange
pear
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
pear
[rocrocket@rocrocket programming]$ sort -u seq.txt
apple
banana
orange
pear
pear由于重复被-u选项无情的删除了。
3 sort的-r选项
sort默认的排序方式是升序,如果想改成降序,就加个-r就搞定了。
[rocrocket@rocrocket programming]$ cat number.txt
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort number.txt
1
2
3
4
5
[rocrocket@rocrocket programming]$ sort -r number.txt
5
4
3
2
1
4 sort的-o选项
由于sort默认是把结果输出到标准输出,所以需要用重定向才能将结果写入文件,形如sort filename > newfile。
但是,如果你想把排序结果输出到原文件中,用重定向可就不行了。
[rocrocket@rocrocket programming]$ sort -r number.txt > number.txt
[rocrocket@rocrocket programming]$ cat number.txt
[rocrocket@rocrocket programming]$
看,竟然将number清空了。
就在这个时候,-o选项出现了,它成功的解决了这个问题,让你放心的将结果写入原文件。这或许也是-o比重定向的唯一优势所在。
[rocrocket@rocrocket programming]$ cat number.txt
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort -r number.txt -o number.txt
[rocrocket@rocrocket programming]$ cat number.txt
5
4
3
2
1
5 sort的-n选项
你有没有遇到过10比2小的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了,排序程序会先比较1和2,显然1小,所以就将10放在2前面喽。这也是sort的一贯作风。
我们如果想改变这种现状,就要使用-n选项,来告诉sort,“要以数值来排序”!
[rocrocket@rocrocket programming]$ cat number.txt
1
10
19
11
2
5
[rocrocket@rocrocket programming]$ sort number.txt
1
10
11
19
2
5
[rocrocket@rocrocket programming]$ sort -n number.txt
1
2
5
10
11
19
6 sort的-t选项和-k选项
如果有一个文件的内容是这样:
[rocrocket@rocrocket programming]$ cat facebook.txt
banana:30:5.5
apple:10:2.5
pear:90:2.3
orange:20:3.4
这个文件有三列,列与列之间用冒号隔开了,第一列表示水果类型,第二列表示水果数量,第三列表示水果价格。
那么我想以水果数量来排序,也就是以第二列来排序,如何利用sort实现?
幸好,sort提供了-t选项,后面可以设定间隔符。(是不是想起了cut和paste的-d选项,共鸣~~)
指定了间隔符之后,就可以用-k来指定列数了。
[rocrocket@rocrocket programming]$ sort -n -k 2 -t : facebook.txt
apple:10:2.5
orange:20:3.4
banana:30:5.5
pear:90:2.3
我们使用冒号作为间隔符,并针对第二列来进行数值升序排序,结果很令人满意。
7 其他的sort常用选项
-f会将小写字母都转换为大写字母来进行比较,亦即忽略大小写
-c会检查文件是否已排好序,如果乱序,则输出第一个乱序的行的相关信息,最后返回1
-C会检查文件是否已排好序,如果乱序,不输出内容,仅返回1
-M会以月份来排序,比如JAN小于FEB等等
-b会忽略每一行前面的所有空白部分,从第一个可见字符开始比较。
有时候学习脚本,你会发现sort命令后面跟了一堆类似-k1,2,或者-k1.2 -k3.4的东东,有些匪夷所思。今天,我们就来搞定它—-k选项!
1 准备素材
$ cat facebook.txt
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
第一个域是公司名称,第二个域是公司人数,第三个域是员工平均工资。(除了公司名称,其他的别信,都瞎写的^_^)
2 我想让这个文件按公司的字母顺序排序,也就是按第一个域进行排序:(这个facebook.txt文件有三个域)
$ sort -t ‘ ‘ -k 1 facebook.txt
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
看到了吧,就直接用-k 1设定就可以了。(其实此处并不严格,稍后你就会知道)
3 我想让facebook.txt按照公司人数排序
$ sort -n -t ‘ ‘ -k 2 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
不用解释,我相信你能懂。
但是,此处出现了问题,那就是baidu和sohu的公司人数相同,都是100人,这个时候怎么办呢?按照默认规矩,是从第一个域开始进行升序排序,因此baidu排在了sohu前面。
4 我想让facebook.txt按照公司人数排序 ,人数相同的按照员工平均工资升序排序:
$ sort -n -t ‘ ‘ -k 2 -k 3 facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
看,我们加了一个-k2 -k3就解决了问题。对滴,sort支持这种设定,就是说设定域排序的优先级,先以第2个域进行排序,如果相同,再以第3个域进行排序。(如果你愿意,可以一直这么写下去,设定很多个排序优先级)
5 我想让facebook.txt按照员工工资降序排序,如果员工人数相同的,则按照公司人数升序排序:(这个有点难度喽)
$ sort -n -t ‘ ‘ -k 3r -k 2 facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
此处有使用了一些小技巧,你仔细看看,在-k 3后面偷偷加上了一个小写字母r。你想想,再结合我们上一篇文章,能得到答案么?揭晓:r和-r选项的作用是一样的,就是表示逆序。因为sort默认是按照升序排序的,所以此处需要加上r表示第三个域(员工平均工资)是按照降序排序。此处你还可以加上n,就表示对这个域进行排序时,要按照数值大小进行排序,举个例子吧:
$ sort -t ‘ ‘ -k 3nr -k 2n facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
看,我们去掉了最前面的-n选项,而是将它加入到了每一个-k选项中了。
6 -k选项的具体语法格式
要继续往下深入的话,就不得不来点理论知识。你需要了解-k选项的语法格式,如下:
[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ]
这个语法格式可以被其中的逗号(“,”)分为两大部分,Start部分和End部分。
先给你灌输一个思想,那就是“如果不设定End部分,那么就认为End被设定为行尾”。这个概念很重要的,但往往你不会重视它。
Start部分也由三部分组成,其中的Modifier部分就是我们之前说过的类似n和r的选项部分。我们重点说说Start部分的FStart和C.Start。
C.Start也是可以省略的,省略的话就表示从本域的开头部分开始。之前例子中的-k 2和-k 3就是省略了C.Start的例子喽。
FStart.CStart,其中FStart就是表示使用的域,而CStart则表示在FStart域中从第几个字符开始算“排序首字符”。
同理,在End部分中,你可以设定FEnd.CEnd,如果你省略.CEnd,则表示结尾到“域尾”,即本域的最后一个字符。或者,如果你将CEnd设定为0(零),也是表示结尾到“域尾”。
7 突发奇想,从公司英文名称的第二个字母开始进行排序:
$ sort -t ‘ ‘ -k 1.2 facebook.txt
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
看,我们使用了-k 1.2,这就表示对第一个域的第二个字符开始到本域的最后一个字符为止的字符串进行排序。你会发现baidu因为第二个字母是a而名列榜首。sohu和 google第二个字符都是o,但sohu的h在google的o前面,所以两者分别排在第二和第三。guge只能屈居第四了。
8 又突发奇想,,只针对公司英文名称的第二个字母进行排序,如果相同的按照员工工资进行降序排序:
$ sort -t ‘ ‘ -k 1.2,1.2 -k 3,3nr facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
由于只对第二个字母进行排序,所以我们使用了-k 1.2,1.2的表示方式,表示我们“只”对第二个字母进行排序。(如果你问“我使用-k 1.2怎么不行?”,当然不行,因为你省略了End部分,这就意味着你将对从第二个字母起到本域最后一个字符为止的字符串进行排序)。对于员工工资进行排 序,我们也使用了-k 3,3,这是最准确的表述,表示我们“只”对本域进行排序,因为如果你省略了后面的3,就变成了我们“对第3个域开始到最后一个域位置的内容进行排序” 了。
9 在modifier部分还可以用到哪些选项?
可以用到b、d、f、i、n 或 r。
其中n和r你肯定已经很熟悉了。
b表示忽略本域的签到空白符号。
d表示对本域按照字典顺序排序(即,只考虑空白和字母)。
f表示对本域忽略大小写进行排序。
i表示忽略“不可打印字符”,只针对可打印字符进行排序。(有些ASCII就是不可打印字符,比如\a是报警,\b是退格,\n是换行,\r是回车等等)
10 思考思考关于-k和-u联合使用的例子:
$ cat facebook.txt
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
这是最原始的facebook.txt文件。
$ sort -n -k 2 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
$ sort -n -k 2 -u facebook.txt
guge 50 3000
baidu 100 5000
google 110 5000
当设定以公司员工域进行数值排序,然后加-u后,sohu一行就被删除了!原来-u只识别用-k设定的域,发现相同,就将后续相同的行都删除。
$ sort -k 1 -u facebook.txt
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
$ sort -k 1.1,1.1 -u facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
这个例子也同理,开头字符是g的guge就没有幸免于难。
$ sort -n -k 2 -k 3 -u facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
咦!这里设置了两层排序优先级的情况下,使用-u就没有删除任何行。原来-u是会权衡所有-k选项,将都相同的才会删除,只要其中有一级不同都不会轻易删除的:)(不信,你可以自己加一行sina 100 4500试试看)
11 最诡异的排序:
$ sort -n -k 2.2,3.1 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
以第二个域的第二个字符开始到第三个域的第一个字符结束的部分进行排序。
第一行,会提取0 3,第二行提取00 5,第三行提取00 4,第四行提取10 5。
又因为sort认为0小于00小于000小于0000….
因此0 3肯定是在第一个。10 5肯定是在最后一个。但为什么00 5却在00 4前面呢?(你可以自己做实验思考一下。)
答案揭晓:原来“跨域的设定是个假象”,sort只会比较第二个域的第二个字符到第二个域的最后一个字符的部分,而不会把第三个域的开头字符纳入比较范围。当发现00和00相同时,sort就会自动比较第一个域去了。当然baidu在sohu前面了。用一个范例即可证实:
$ sort -n -k 2.2,3.1 -k 1,1r facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
12 有时候在sort命令后会看到+1 -2这些符号,这是什么东东?
关于这种语法,最新的sort是这么进行解释的:
On older systems, `sort’ supports an obsolete origin-zero syntax `+POS1 [-POS2]‘ for specifying sort keys. POSIX 1003.1-2001 (*note Standards conformance::) does not allow this; use `-k’ instead.
原来,这种古老的表示方式已经被淘汰了,以后可以理直气壮的鄙视使用这种表示方法的脚本喽!
(为了防止古老脚本的存在,在这再说一下这种表示方法,加号表示Start部分,减号表示End部分。最最重要的一点是,这种方式方法是从0开始计数的,以前所说的第一个域,在此被表示为第0个域。以前的第2个字符,在此表示为第1个字符。明白?)
三、uniq命令
作用:
去除重复的行(相邻且相同,认定为重复)
选项:
-c:在行首用数字表示该行出现了多少次
-u:仅仅显示那些没有出现重复过的行
实例一:统计行数 [root@ken ~]# uniq -c test 1 6 this:is:ke3 4 2 this:is:ke4 1 5 this:is:ke2 1 6 this:is:ke1 1 1 this:is:ke6 1 8 this:is:ke7 实例二:将文件中相同的行去重 [root@ken ~]# sort test | uniq 1 this:is:ke6 2 this:is:ke4 5 this:is:ke2 6 this:is:ke1 6 this:is:ke3 8 this:is:ke7
四、seq命令
作用:
生成一个数组序列
格式:
seq [start [step]] stop
实例:
[root@ken ~]# seq 5 #终止位5 1 2 3 4 5 [root@ken ~]# seq 2 5 #起始位2,终止位5 2 3 4 5 [root@ken ~]# seq 2 2 10 #起始位2,步长为2,终止位10 2 4 6 8 10
五、tr命令
作用:
Linux tr 命令用于转换或删除文件中的字符。
tr 指令从标准输入设备读取数据,经过字符串转译后,将结果输出到标准输出设备。
a-z 任意小写
A-Z 任意大写
0-9 任意数字
[root@ken ~]# echo "this is ken" | tr a-z A-Z THIS IS KEN [root@ken ~]# echo "THIS IS KEN" | tr A-Z a-z this is ken 实例二:删除特定字符串 s这个字符串都会被删掉 [root@ken ~]# cat test 6 this:is:ke3 2 this:is:ke4 2 this:is:ke4 2 this:is:ke4 2 this:is:ke4 5 this:is:ke2 6 this:is:ke1 1 this:is:ke6 8 this:is:ke7 [root@ken ~]# cat test | tr -d 's' 6 thi:i:ke3 2 thi:i:ke4 2 thi:i:ke4 2 thi:i:ke4 2 thi:i:ke4 5 thi:i:ke2 6 thi:i:ke1 1 thi:i:ke6 8 thi:i:ke7