lsof命令
lsof命令
😄 Written by Zak Zhu
参考
- 鸟哥私房菜(http://cn.linux.vbird.org/linux_basic/0440processcontrol_4.php#proc)
- 枯木/翻译-lsof在Linux中的10个例子(http://kumu-linux.github.io/blog/2013/04/08/lsof/)
- 不一样的天空w/lsof命令详解(http://blog.itpub.net/31397003/viewspace-2147485/)
- Linux Tools Quick Tutorial--工具参考篇--3.lsof 一切皆文件(https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/lsof.html)
- yexiaobai/使用lsof处理文件恢复,句柄以及空间释放问题(https://segmentfault.com/a/1190000000461077)
- 阿里狼/centos7下lsof的坑(https://www.iyunv.com/thread-383054-1-1.html)
- petergz/[Linux] lsof的错误使用场景和查看打开文件数的正确方法(https://www.jianshu.com/p/407c2baef92e)
- teddy.sun/关于file-max和file-nr(http://www.opstool.com/article/166)
- Narad Shrestha/10 lsof Command Examples in Linux(https://www.tecmint.com/10-lsof-command-examples-in-linux/)
lsof版本注意
CentOS6中lsof版本默认为4.82
CentOS7中lsof版本默认为4.87
上述两个版本差异见下图:
由上图可知, 如果在CentOS7中用lsof | wc -l
命令来计算Open File Discriptor的总数, 那么Open File Discriptor的总数会明显偏大 !!!
特别建议
所以为了避免上述问题, 建议使用如下命令来查看FD:
-
统计System Open File Discriptor的总数
cat /proc/sys/fs/file-nr | awk '{print $1-$2}'
1380 180 65536
| | |_ Max no. of file descriptors allowed on the system
| | (与file-max一致)
| |
| |__ Total free allocated file descriptors
|
|__ Total allocated file descriptorsTo compute the number of file descriptors currently being used:
1380 - 180 = 1200 -
统计The Process Open File Discriptor的总数
ls -l /proc/<pid>/fd | wc -l
-
查看哪些进程使用的FD较多
执行pnofile.sh脚本:
for pid_path in $(ls -d /proc/[0-9]*) do pid=$(echo ${pid_path} | awk -F'/' '{print $3}') pnofile=$(ls ${pid_path}/fd | wc -l) echo "${pid_path} ${pnofile}" >> /tmp/stdout done cat /tmp/stdout | awk '{print $2,$1}' | sort -rn rm -rf /tmp/stdout
lsof用法
lsof(list open files)是一个查看当前系统文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,该文件描述符提供了大量关于这个应用程序本身的信息。
下面我使用版本为4.87的lsof来演示用法:
1. List all Open Files with lsof Command
lsof
FD – stands for File descriptor and may seen some of the values as:
- cwd # current working directory
- rtd # root directory
- txt # program text (code and data)
- mem # memory-mapped file
Also in FD column numbers like 1u is actual file descriptor and followed by u,r,w of it’s mode as:
- r # for read access
- w # for write access
- u # for read and write access
TYPE – of files and it’s identification.
- DIR # Directory
- REG # Regular file
- CHR # Character special file
- FIFO # First In First Out
2. List User Specific Opened Files
lsof -u root
3. Find Processes running on Specific Port
lsof -i TCP:22
4. List Open Files of TCP Port ranges 1-1024
lsof -i TCP:1-1024
5. Exclude User with '^' Character
lsof -i -u ^root
6. Search by PID
lsof -p 1
7. Kill all Activity of Particular User
kill -9 $(lsof -t -u zak)
lsof应用实例
1.恢复删除的文件
当Linux计算机受到入侵时,常见的情况是日志文件被删除,以掩盖攻击者的踪迹。管理错误也可能导致意外删除重要的文件,比如在清理旧日志时,意外地删除了数据库的活动事务日志。有时可以通过lsof来恢复这些文件。
当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。
在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof 相关的信息都存储于以进程的 PID 命名的目录中,即/proc/1234 中包含的是PID为1234 的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof 可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。
当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof从/proc目录下恢复该文件的内容。
接下来, 我们做个实验:
-
模拟文件被删除, 但是系统中还有进程正在访问该文件情况
# 1 echo "hello" > /tmp/test # 2 less /tmp/test # 此时, 在另外一个终端, Jhon执行了删除该文件的操作 # 3 rm /tmp/test
-
恢复被删除的文件
-
通过lsof查找正使用该文件的PID以及FD
lsof | grep "deleted" | grep "/tmp/test"
-
在/proc目录下, 找到使用该文件的进程的FD
cat /proc/32189/fd/4
-
恢复文件
cat /proc/32189/fd/4 > /tmp/test
-
2.处理df和du的显示相差很大
今天一同事说文件系统/tmp目录下空间用满了,当时du统计目录所有文件的时候却很小。听到这个现象,第一感觉就是应该有大文件被删除,但是这个文件可能依然被其他程序打开,导致这个文件不能被清除。登上服务器使用lsof看了一下,果然如此,具体排查过程如下:
df -h # 下面内容为命令输出结果 Filesystem Size Used Avail Use% Mounted on /dev/sda5 8.7G 7.9G 407M 96% /tmp lsof | grep "deleted" | grep "/tmp" | sort -nr -k 7,7 # 下面内容为命令输出结果 netstat_2 13571 peien.htg 1w REG 8,5 8321143673 54 /tmp/netstat.log (deleted) ...
上面lsof输出结果的第2列是PID,倒数第3列是占用空间大小
可以看到文件/tmp/netstat.log (deleted)占用7个多G的空间,虽然被删除了,但是还是有进程打开它。
然后,用PID看看是哪个程序占用这个文件:
ps -ef | grep "13571" | grep -v "grep" # 下面内容为命令输出结果 51717 13571 1 0 2011 ? 00:15:00 /bin/bash /tmp/netstat_20110829.sh 51717 21456 13571 0 09:40 ? 00:00:00 sleep 10
将这个进程KILL掉后,就OK了:
kill -9 13571 df -h # 下面内容为命令输出结果 Filesystem Size Used Avail Use% Mounted on /dev/sda5 8.7G 56M 8.2G 1% /tmp
3.解决文件系统无法卸载
-
模拟文件系统无法卸载的情况
# 1 mount /dev/sr0 /mnt/cdrom # 2 less /mnt/cdrom/GPL #当文件系统中, 有文件正在被使用, 此时卸载该文件系统会失败 # 3 umount /dev/sr0
-
解决思路
-
通过lsof查看该文件系统中正在使用文件的进程
lsof | grep "/mnt/cdrom"
-
杀掉该文件系统中正在使用文件的进程
kill -9 10506
-
成功卸载该文件系统
umount /dev/sr0
-